Jak používat tokenizéry v Hugging Face Transformers?

Zpracování přirozeného jazyka (NLP) funguje na nezpracované formě dat. Modely strojového učení jsou trénovány na složitých datech, ale nemohou porozumět nezpracovaným datům. S touto nezpracovanou formou dat musí být spojena nějaká číselná hodnota. Tato hodnota určuje hodnotu a důležitost slova v datech a na tomto základě se provádějí výpočty.

Tento článek obsahuje podrobného průvodce používáním tokenizérů v Hugging Face Transformers.

Co je tokenizér?

Tokenizer je důležitý koncept NLP a jeho hlavním cílem je převést nezpracovaný text do čísel. Pro tento účel existují různé techniky a metodiky. Je však třeba poznamenat, že každá technika slouží specifickému účelu.
Jak používat tokenizéry v Hugging Face Transformers?

Jak používat tokenizéry v Hugging Face Transformers?

Knihovna tokenizerů musí být nejprve nainstalována, než ji použijete a importujete z ní funkce. Poté trénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace.

Hugging Face představuje tři hlavní kategorie tokenizace, které jsou uvedeny níže:

Tokenizer založený na slovech
Tokenizer založený na postavách
Tokenizer založený na podslovech

Zde je podrobný návod, jak používat tokenizéry v Transformers:

Krok 1: Nainstalujte transformátory
Chcete-li nainstalovat transformátory, použijte příkaz pip v následujícím příkazu:

! pip Nainstalujte transformátory

Krok 2: Import tříd
Z transformátorů, dovoz potrubí , a AutoModelForSequenceClassification knihovna pro provedení klasifikace:

z transformátorů import potrubí, AutoModelForSequenceClassification

Krok 3: Importujte model
' AutoModelForSequenceClassification ” je metoda, která patří do Auto-Class pro tokenizaci. The from_pretrained() metoda se používá k vrácení správné třídy modelu na základě typu modelu.

Zde jsme uvedli název modelu v „ jméno modelu 'proměnná:

jméno modelu = 'distilbert-base-uncased-finetuned-sst-2-english'
před_tréninkový model =AutoModelForSequenceClassification.from_pretrained ( jméno modelu )

Krok 4: Importujte AutoTokenizer
Zadejte následující příkaz pro generování tokenů předáním „ jméno modelu “ jako argument:

z transformátorů importujte AutoTokenizer

vygenerovaný token =AutoTokenizer.from_pretrained ( jméno modelu )

Krok 5: Vygenerujte token
Nyní vygenerujeme tokeny pro větu “Miluji dobré jídlo” pomocí „ vygenerovaný token 'proměnná:

slova =generatetoken ( 'Miluji dobré jídlo' )
tisk ( slova )

Výstup je dán následovně:

Kód k výše uvedenému Google Co je zde uvedeno.

Závěr

Chcete-li použít tokenizéry v Hugging Face, nainstalujte knihovnu pomocí příkazu pip, natrénujte model pomocí AutoTokenizer a poté poskytněte vstup pro provedení tokenizace. Pomocí tokenizace přiřaďte váhu slovům, na základě kterých jsou řazena, aby byl zachován význam věty. Toto skóre také určuje jejich hodnotu pro analýzu. Tento článek je podrobným průvodcem, jak používat tokenizéry v Hugging Face Transformers.

Jak používat tokenizéry v Hugging Face Transformers?

Co je tokenizér?

Jak používat tokenizéry v Hugging Face Transformers?

Závěr

Kategorie

Populární Příspěvky

Monitorování systému Raspberry Pi pomocí Monitorix

Jak se rozhodnout, zda nadále používat Windows 10 nebo 11?

Jak zamknout složku ve Windows 11

Jaké jsou bezplatné alternativy k Midjourney

Jaký je rozdíl mezi int a int& v C++?

Jaké jsou kroky ke spuštění prostředí Windows PowerShell

Jaký je rozdíl mezi operátory = a == v programování C?

Pandas Groupby Aggregate

Jak přehrávat zvukové soubory AMR na Ubuntu 22.04

Jak používat funkci crypt() v PHP

10 užitečných síťových příkazů pro Raspberry Pi Linux

Jak používat metodu valueOf() třídy Enum Java

Git Commit Message: Best Practices

Co je agregace Elasticsearch?

Jak spouštět příkazy Linuxu na pozadí

Jak přejmenovat účty správce a hosta v systému Windows Server

Jak nainstalovat a nakonfigurovat Hamachi na Linuxu

Jak povolit režim Boha v systému Windows 11

Jak používat kanály Stage na Discord v roce 2022

Jak změnit výchozí prostředí ze Zsh na Bash Mac