Tento článek obsahuje podrobného průvodce používáním tokenizérů v Hugging Face Transformers.
Co je tokenizér?
Tokenizer je důležitý koncept NLP a jeho hlavním cílem je převést nezpracovaný text do čísel. Pro tento účel existují různé techniky a metodiky. Je však třeba poznamenat, že každá technika slouží specifickému účelu.
Jak používat tokenizéry v Hugging Face Transformers?
Jak používat tokenizéry v Hugging Face Transformers?
Knihovna tokenizerů musí být nejprve nainstalována, než ji použijete a importujete z ní funkce. Poté trénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace.
Hugging Face představuje tři hlavní kategorie tokenizace, které jsou uvedeny níže:
- Tokenizer založený na slovech
- Tokenizer založený na postavách
- Tokenizer založený na podslovech
Zde je podrobný návod, jak používat tokenizéry v Transformers:
Krok 1: Nainstalujte transformátory
Chcete-li nainstalovat transformátory, použijte příkaz pip v následujícím příkazu:
Krok 2: Import tříd
Z transformátorů, dovoz potrubí , a AutoModelForSequenceClassification knihovna pro provedení klasifikace:
Krok 3: Importujte model
' AutoModelForSequenceClassification ” je metoda, která patří do Auto-Class pro tokenizaci. The from_pretrained() metoda se používá k vrácení správné třídy modelu na základě typu modelu.
Zde jsme uvedli název modelu v „ jméno modelu 'proměnná:
jméno modelu = 'distilbert-base-uncased-finetuned-sst-2-english'před_tréninkový model =AutoModelForSequenceClassification.from_pretrained ( jméno modelu )
Krok 4: Importujte AutoTokenizer
Zadejte následující příkaz pro generování tokenů předáním „ jméno modelu “ jako argument:
vygenerovaný token =AutoTokenizer.from_pretrained ( jméno modelu )
Krok 5: Vygenerujte token
Nyní vygenerujeme tokeny pro větu “Miluji dobré jídlo” pomocí „ vygenerovaný token 'proměnná:
tisk ( slova )
Výstup je dán následovně:
Kód k výše uvedenému Google Co je zde uvedeno.
Závěr
Chcete-li použít tokenizéry v Hugging Face, nainstalujte knihovnu pomocí příkazu pip, natrénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace. Pomocí tokenizace přiřaďte váhu slovům, na základě kterých jsou řazena, aby byl zachován význam věty. Toto skóre také určuje jejich hodnotu pro analýzu. Tento článek je podrobným průvodcem, jak používat tokenizéry v Hugging Face Transformers.