Jak zřetězit datové sady v Hugging Face

Jak Zretezit Datove Sady V Hugging Face



Knihovna „datových sad“ od Hugging Face poskytuje pohodlný způsob práce a manipulace s datovými sadami pro úlohy zpracování přirozeného jazyka. Jednou z užitečných funkcí, kterou knihovna nabízí, je concatenate_datasets(), která vám umožňuje zřetězit více datových sad do jediné datové sady. Následuje stručný přehled funkce concatenate_datasets() a jak ji používat.

concatenate_datasets()

Popis:

Knihovna „datových sad“ Hugging Face poskytuje funkci concatenate_datasets(). Používá se ke zřetězení více datových sad a jejich sloučení do jediné datové sady podél zadané osy. Tato funkce je užitečná zejména v případě, že máte více datových sad, které sdílejí stejnou strukturu, a chcete je sloučit do jednotné datové sady pro další zpracování a analýzu.







Syntax:



z datové sady import concatenate_datasets

concatenated_dataset = concatenate_datasets ( datové sady , osa = 0 , info = Žádný )

Parametry:

datové sady (seznam datové sady): Seznam datových sad, které chcete zřetězit. Tyto datové sady by měly mít kompatibilní funkce, což znamená, že mají stejné schéma, názvy sloupců a datové typy.



osa (int, volitelné, výchozí=0): Osa, podél které má být provedeno zřetězení. Pro většinu datových sad NLP se používá výchozí hodnota 0, což znamená, že datové sady jsou vertikálně zřetězeny. Pokud nastavíte osu=1, budou datové sady zřetězeny vodorovně, za předpokladu, že mají různé sloupce jako prvky.





info (datasets.DatasetInfo, volitelné): Informace o zřetězené datové sadě. Pokud nejsou zadány, jsou informace odvozeny z první datové sady v seznamu.

Vrácení:

concatenated_dataset (Dataset): Výsledná datová sada po zřetězení všech vstupních datových sad.



Příklad:

# Krok 1: Nainstalujte knihovnu datových sad

# Můžete jej nainstalovat pomocí pip:

# !pip instalační datové sady

# Krok 2: Importujte požadované knihovny

z datové sady import load_dataset , concatenate_datasets

# Krok 3: Načtěte datové sady pro recenze filmů IMDb

# Použijeme dvě datové sady IMDb, jednu pro pozitivní recenze

#a další pro negativní recenze.

# Načíst 2500 kladných recenzí

dataset_pos = load_dataset ( 'imdb' , rozdělit = 'vlak[:2500]' )

# Načíst 2500 negativních recenzí

dataset_neg = load_dataset ( 'imdb' , rozdělit = 'vlak[-2500:]' )

# Krok 4: Spojte datové sady

# Obě datové sady zřetězíme podél osy=0, jak mají

stejné schéma ( stejné vlastnosti ) .

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# Krok 5: Analyzujte zřetězenou datovou sadu

# Pro jednoduchost spočítejme počet kladných a záporných hodnot

# recenzí ve zřetězené datové sadě.

počet_pozitivních_recenzí = součet ( 1 pro označení v

concatenated_dataset [ 'označení' ] -li označení == 1 )

počet_negativních_recenzí = součet ( 1 pro označení v

concatenated_dataset [ 'označení' ] -li označení == 0 )

# Krok 6: Zobrazte výsledky

tisk ( 'Počet kladných recenzí:' , počet_pozitivních_recenzí )

tisk ( 'Počet negativních recenzí:' , počet_negativních_recenzí )

# Krok 7: Vytiskněte několik příkladů recenzí ze zřetězené datové sady

tisk ( ' \n Několik příkladů recenzí:' )

pro i v rozsah ( 5 ) :

tisk ( F 'Recenze {i + 1}: {concatenated_dataset['text'][i]}' )

Výstup:

Následuje vysvětlení programu knihovny „datových sad“ Hugging Face, který spojuje dvě datové sady filmových recenzí IMDb. To vysvětluje účel programu, jeho použití a kroky zahrnuté v kódu.

Pojďme poskytnout podrobnější vysvětlení každého kroku v kódu:

# Krok 1: Import požadovaných knihoven

z datové sady import load_dataset , concatenate_datasets

V tomto kroku importujeme potřebné knihovny pro program. Potřebujeme funkci „load_dataset“ k načtení datových sad filmových recenzí IMDb a „concatenate_datasets“ k jejich pozdějšímu zřetězení.

# Krok 2: Načtěte datové sady IMDb Movie Review

# Načíst 2500 kladných recenzí

dataset_pos = load_dataset ( 'imdb' , rozdělit = 'vlak[:2500]' )

# Načíst 2500 negativních recenzí

dataset_neg = load_dataset ( 'imdb' , rozdělit = 'vlak[-2500:]' )

Zde používáme funkci „load_dataset“ k načtení dvou podmnožin datové sady IMDb. „dataset_pos“ obsahuje 2500 pozitivních recenzí a „dataset_neg“ obsahuje 2500 negativních recenzí. Parametr split používáme k určení rozsahu příkladů, které se mají načíst, což nám umožňuje vybrat podmnožinu celé datové sady.

# Krok 3: Spojte datové sady

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

V tomto kroku zřetězíme dvě podmnožiny datové sady IMDb do jediné datové sady nazvané „concatenated_dataset“. Používáme funkci „concatenate_datasets“ a předáváme ji se seznamem, který obsahuje dvě datové sady ke zřetězení. Protože obě datové sady mají stejné vlastnosti, zřetězíme je podél osy=0, což znamená, že řádky jsou naskládány na sebe.

# Krok 4: Analyzujte zřetězenou datovou sadu

počet_pozitivních_recenzí = součet ( 1 pro označení v

concatenated_dataset [ 'označení' ] -li označení == 1 )

počet_negativních_recenzí = součet ( 1 pro označení v

concatenated_dataset [ 'označení' ] -li označení == 0 )

Zde provedeme jednoduchou analýzu zřetězené datové sady. K počítání kladných a záporných recenzí používáme porozumění seznamu spolu s funkcí „součet“. Iterujeme přes label“ sloupce „concatenated_dataset“ a zvýší počty, kdykoli narazíme na pozitivní štítek (1) nebo negativní štítek (0).

# Krok 5: Zobrazte výsledky

tisk ( 'Počet kladných recenzí:' , počet_pozitivních_recenzí )

tisk ( 'Počet negativních recenzí:' , počet_negativních_recenzí )

V tomto kroku vytiskneme výsledky naší analýzy – počet pozitivních a negativních recenzí ve zřetězeném souboru dat.

# Krok 6: Vytiskněte několik příkladů recenzí

tisk ( ' \n Několik příkladů recenzí:' )

pro i v rozsah ( 5 ) :

tisk ( F 'Recenze {i + 1}: {concatenated_dataset['text'][i]}' )

Nakonec předvedeme několik příkladů recenzí ze zřetězené datové sady. Projdeme prvních pět příkladů v datové sadě a vytiskneme jejich textový obsah pomocí sloupce „text“.

Tento kód ukazuje přímočarý příklad použití knihovny „datových sad“ Hugging Face k načtení, zřetězení a analýze datových sad filmových recenzí IMDb. Zdůrazňuje schopnost knihovny zefektivnit zpracování datových sad NLP a předvádí její potenciál pro vytváření sofistikovanějších modelů a aplikací pro zpracování přirozeného jazyka.

Závěr

Program Python, který používá knihovnu „datových sad“ Hugging Face, úspěšně demonstruje zřetězení dvou datových sad filmových recenzí IMDb. Načtením podmnožin pozitivních a negativních recenzí je program zkombinuje do jediné datové sady pomocí funkce concatenate_datasets(). Poté provede jednoduchou analýzu spočítáním počtu pozitivních a negativních recenzí v kombinovaném souboru dat.

Knihovna „datových sad“ zjednodušuje proces manipulace a manipulace s datovými sadami NLP, což z ní činí výkonný nástroj pro výzkumníky, vývojáře a odborníky na NLP. Se svým uživatelsky přívětivým rozhraním a rozsáhlými funkcemi umožňuje knihovna snadné předběžné zpracování, průzkum a transformaci dat. Program, který je uveden v této dokumentaci, slouží jako praktický příklad toho, jak lze knihovnu využít k zefektivnění úloh spojených s řetězením dat a analýzou.

V reálných scénářích může tento program sloužit jako základ pro složitější úlohy zpracování přirozeného jazyka, jako je analýza sentimentu, klasifikace textu a jazykové modelování. Pomocí knihovny „datových sad“ mohou výzkumníci a vývojáři efektivně spravovat rozsáhlé datové sady, usnadnit experimentování a urychlit vývoj nejmodernějších modelů NLP. Celkově je knihovna „datových sad“ Hugging Face zásadním přínosem při snaze o pokrok ve zpracování a porozumění přirozeného jazyka.