Jak používat datové sady Hugging Face

Jak Pouzivat Datove Sady Hugging Face



Použitelnost a použitelnost modelů strojového učení je testována na datech. Spolehlivost testů velmi závisí na množství a kvalitě dat, na kterých jsou tyto modely aplikovány. Je to úplný úkol sám o sobě vytvořit, získat a vyčistit vhodně velkou datovou sadu pro testování vašeho „ Zpracování přirozeného jazyka (NLP) “ Model strojového učení.

Hugging Face pro to nabízí elegantní řešení se svou výjimečně velkou knihovnou datových sad, ze kterých si můžete vybrat a najít tu, která dokonale vyhovuje vašim požadavkům. Zde vám ukážeme, jak najít ideální datovou sadu a připravit ji k adekvátnímu testování vašeho modelu.







Jak používat datové sady Hugging Face?

Ukážeme vám, jak používat datové sady Hugging Face na příkladu „ TinyStories “Datový soubor z Hugging Face.



Příklad

TinyStories Dataset má více než 2 miliony řádků dat ve vlakovém rozdělení a má více než 2 tisíce stažení na platformě Hugging Face. Použijeme jej v níže uvedeném kódu v Google Colab:



! pip Nainstalujte transformátory
! pip Nainstalujte datové sady

z datových sad importovat load_dataset

datová sada = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = datová sada [ 'vlak' ] [ TinyStories_Story ] [ 'text' ]

tisk ( příklad_řetězec )


V tomto kódu zvažte níže uvedené kroky:





Krok 01 : Prvním krokem je „ instalace ” datových sad transformátorů.

Krok 02 : Dále importujte požadovanou datovou sadu, “ TinyStories “ do vašeho projektu.



Krok 03 : Dále načtěte vybranou datovou sadu pomocí „ load_dataset() funkce “.

Krok 04 : Nyní specifikujeme číslo příběhu, které chceme z datové sady TinyStories. V našem příkladu kódu jsme zadali číslo 03.

Krok 05 : Nakonec použijeme metodu „print()“ k zobrazení výstupu.

Výstup



Poznámka: Kód a výstup lze také zobrazit přímo v naší službě Google Colab .

Závěr

Datové sady Hugging Face ” uživatelům neuvěřitelně zefektivní testování jejich modelů strojového učení při přímém importu velkých datových sad z jejich online knihovny. V důsledku toho se aplikace algoritmů NLP stala snazší a rychlejší, protože programátoři mohou své projekty testovat na základě datové sady, která má kvalitu i kvantitu.