Jak používat tokenizéry v Hugging Face Transformers?

Jak Pouzivat Tokenizery V Hugging Face Transformers



Zpracování přirozeného jazyka (NLP) funguje na nezpracované formě dat. Modely strojového učení jsou trénovány na složitých datech, ale nemohou porozumět nezpracovaným datům. S touto nezpracovanou formou dat musí být spojena nějaká číselná hodnota. Tato hodnota určuje hodnotu a důležitost slova v datech a na tomto základě se provádějí výpočty.

Tento článek obsahuje podrobného průvodce používáním tokenizérů v Hugging Face Transformers.

Co je tokenizér?

Tokenizer je důležitý koncept NLP a jeho hlavním cílem je převést nezpracovaný text do čísel. Pro tento účel existují různé techniky a metodiky. Je však třeba poznamenat, že každá technika slouží specifickému účelu.
Jak používat tokenizéry v Hugging Face Transformers?







Jak používat tokenizéry v Hugging Face Transformers?

Knihovna tokenizerů musí být nejprve nainstalována, než ji použijete a importujete z ní funkce. Poté trénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace.



Hugging Face představuje tři hlavní kategorie tokenizace, které jsou uvedeny níže:



  • Tokenizer založený na slovech
  • Tokenizer založený na postavách
  • Tokenizer založený na podslovech

Zde je podrobný návod, jak používat tokenizéry v Transformers:





Krok 1: Nainstalujte transformátory
Chcete-li nainstalovat transformátory, použijte příkaz pip v následujícím příkazu:

! pip Nainstalujte transformátory



Krok 2: Import tříd
Z transformátorů, dovoz potrubí , a AutoModelForSequenceClassification knihovna pro provedení klasifikace:

z transformátorů import potrubí, AutoModelForSequenceClassification

Krok 3: Importujte model
' AutoModelForSequenceClassification ” je metoda, která patří do Auto-Class pro tokenizaci. The from_pretrained() metoda se používá k vrácení správné třídy modelu na základě typu modelu.

Zde jsme uvedli název modelu v „ jméno modelu 'proměnná:

jméno modelu = 'distilbert-base-uncased-finetuned-sst-2-english'
před_tréninkový model =AutoModelForSequenceClassification.from_pretrained ( jméno modelu )

Krok 4: Importujte AutoTokenizer
Zadejte následující příkaz pro generování tokenů předáním „ jméno modelu “ jako argument:

z transformátorů importujte AutoTokenizer

vygenerovaný token =AutoTokenizer.from_pretrained ( jméno modelu )

Krok 5: Vygenerujte token
Nyní vygenerujeme tokeny pro větu “Miluji dobré jídlo” pomocí „ vygenerovaný token 'proměnná:

slova =generatetoken ( 'Miluji dobré jídlo' )
tisk ( slova )

Výstup je dán následovně:

Kód k výše uvedenému Google Co je zde uvedeno.

Závěr

Chcete-li použít tokenizéry v Hugging Face, nainstalujte knihovnu pomocí příkazu pip, natrénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace. Pomocí tokenizace přiřaďte váhu slovům, na základě kterých jsou řazena, aby byl zachován význam věty. Toto skóre také určuje jejich hodnotu pro analýzu. Tento článek je podrobným průvodcem, jak používat tokenizéry v Hugging Face Transformers.