Jak aplikovat potrubí na datovou sadu v Transformers?

Jak Aplikovat Potrubi Na Datovou Sadu V Transformers



Funkce pipeline() je nedílnou součástí knihovny Transformer. Vyžaduje několik vstupů, ve kterých můžeme definovat inferenční úlohu, modely, mechanismus tokenizace atd. Funkce pipeline() se převážně používá k provádění úloh NLP na jednom nebo několika textech. Provádí předběžné zpracování na vstupu a následné zpracování na základě modelu za účelem generování výstupu čitelného člověkem a přesné predikce s maximální přesností.

Tento článek se zabývá následujícími aspekty:







Co je knihovna datové sady Hugging Face?

Knihovna datových sad Hugging Face je API, které obsahuje několik veřejných datových sad a poskytuje snadný způsob, jak je stáhnout. Tuto knihovnu lze importovat a nainstalovat do aplikace pomocí „ pip “příkaz. Pro praktickou ukázku stažení a instalace datových sad knihovny Hugging Face navštivte toto Odkaz na Google Colab. Můžete si stáhnout více datových sad z Hugging Face Dataset Hub.



Další informace o fungování funkce pipeline() naleznete v tomto článku „ Jak využít funkci Pipeline() v transformátorech? “.



Jak aplikovat potrubí na datovou sadu v Hugging Face?

Hugging Face poskytuje několik různých veřejných datových sad, které lze snadno nainstalovat pomocí jednořádkového kódu. V tomto článku uvidíme praktickou ukázku aplikace potrubí na tyto datové sady. Existují dva způsoby, jak lze potrubí implementovat do datové sady.





Metoda 1: Použití iterační metody

Funkci pipeline() lze také iterovat přes datovou sadu a model. Za tímto účelem postupujte podle níže uvedených kroků:

Krok 1: Nainstalujte knihovnu Transformer Library

Chcete-li nainstalovat knihovnu Transformer, zadejte následující příkaz:



!pip instalujte transformátory

Krok 2: Import potrubí

Můžeme importovat potrubí z knihovny Transformer. Za tímto účelem zadejte následující příkaz:

z transformátorů import potrubí

Krok 3: Implementujte potrubí

Zde je funkce pipeline() implementována na modelu „ gpt2 “. Modely si můžete stáhnout z Hub pro model objímání obličeje:

def imp_pipeline():
pro x v rozsahu (1000):
výnos f'Implementační datová sada{x}'


create_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
pro výstup v create_pipeline(imp_pipeline()):
gen_char += len(výstup[0]['generovaný_text'])

V tomto kódu je „ generovat_potrubí ” je proměnná, která obsahuje funkci pipeline() s modelem “ gpt2 “. Když se zavolá pomocí „ imp_pipeline() “, automaticky rozpozná data, která se zvětší o rozsah zadaný na 1000:

To zabere nějakou dobu trénink. Odkaz na Google Co je také dáno.

Metoda 2: Použití knihovny datových sad

V této metodě předvedeme implementaci potrubí pomocí knihovny „datasets“:

Krok 1: Nainstalujte Transformer

Chcete-li nainstalovat knihovnu Transformer, zadejte následující příkaz:

!pip instalujte transformátory

Krok 2: Nainstalujte knihovnu datových sad

Jako „ datové sady ” knihovna obsahuje všechny veřejné datové sady, můžeme ji nainstalovat pomocí následujícího příkazu. Instalací „ datové sady ” knihovny, můžeme přímo importovat libovolnou datovou sadu zadáním jejího názvu:

!pip instalační datové sady

Krok 3: Potrubí datové sady

Chcete-li vytvořit kanál na datové sadě, použijte následující kód. KeyDataset je funkce, která vydává pouze ty hodnoty, které uživatele zajímají:

z transformers.pipelines.pt_utils import KeyDataset
z transformátorů import potrubí
z datových sad importovat load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') pro výstup v gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Tisk výstupu nyní')
tisk ('----------------')
tisk (výstup)

Výstup výše uvedeného kódu je uveden níže:

To je z tohoto průvodce vše. Odkaz na Google Co je také zmíněn v tomto článku

Závěr

Chcete-li použít kanály na datovou sadu, můžeme buď iterovat datovou sadu pomocí funkce pipeline() nebo použít „ datové sady “knihovna. Hugging Face poskytuje svým uživatelům odkaz na úložiště GitHub pro datové sady i modely, které lze použít na základě požadavků. Tento článek poskytuje komplexního průvodce aplikací potrubí na datovou sadu v Transformers.