Metoda filtru objetí obličeje ().

Metoda Filtru Objeti Obliceje



Hugging Face má několik modelů a datových sad pro zpracování přirozeného jazyka (NLP). Tyto obrovské datové sady obsahují mnoho informací, které pomáhají trénovat model přesně. Někdy však nepotřebujeme celý soubor dat, protože potřebujeme pouze jeho malou část, abychom splnili naše aktuální potřeby. Pokud chceme použít stejný datový soubor jako obvykle se všemi informacemi, trénování a optimalizace modelu zabere spoustu času, což je ztráta času.

Potřebujeme tedy nějakou metodu nebo balíček, který dokáže extrahovat relevantní informace z datových sad. Jednoduše řečeno, můžeme říci, že potřebujeme další možnost filtrování, abychom filtrovali datové sady podle našich požadavků.

Hugging Face poskytuje různé možnosti filtrování datových sad, což pomáhá uživatelům vytvářet přizpůsobené datové sady, které obsahují pouze příklady nebo informace splňující specifické podmínky.







Metoda Select().

Tato metoda funguje na seznamu indexů, což znamená, že musíme definovat seznam. V tomto seznamu musíme zmínit všechny indexové hodnoty těchto řádků, které chceme extrahovat. Tato metoda však funguje pouze pro malé datové sady a ne pro velké datové sady, protože nejsme schopni vidět celou datovou sadu, pokud je v GB (gigabajtech) nebo TB (tera bajty).



Příklad :

new_dataset = datový soubor. vybrat ( [ 0 , jedenáct , dvacet jedna , Čtyři pět , padesáti , 55 ] )

tisk ( jen ( new_dataset ) )

V tomto příkladu jsme použili metodu „select“ k odfiltrování požadovaných informací z datové sady.



Metoda Filter().

Metoda filter() překonává problémy procesu select(), protože neexistuje žádná konkrétní podmínka. Metoda filter() vrací všechny řádky, které odpovídají konkrétní situaci nebo podmínce.





Příklad: Tento program v Pythonu uložíme pod názvem „test.py“.

z datové sady import load_dataset

# Krok 1: Načtěte datovou sadu
datový soubor = load_dataset ( 'imdb' )

# Krok 2: Definujte funkci filtrování
def custom_filter ( příklad ) :
'''
Vlastní filtrovací funkce pro zachování příkladů s pozitivními výsledky
sentiment (označení == 1).
'''

vrátit se příklad [ 'označení' ] == 1

# Krok 3: Použijte filtr k vytvoření nové filtrované datové sady
filtrovaná_datová sada = datový soubor. filtr ( custom_filter )

# Krok 4: Zkontrolujte dostupné názvy sloupců ve filtrované datové sadě
tisk ( 'Dostupné sloupce ve filtrované datové sadě:' ,
filtrovaná_datová sada. názvy sloupců )

# Krok 5: Přístup k informacím z filtrované datové sady
filtrované_příklady = filtrovaná_datová sada [ 'vlak' ]
počet_filtrovaných_příkladů = jen ( filtrované_příklady )

# Krok 6: Vytiskněte celkový počet vyfiltrovaných příkladů
tisk ( 'Celkový počet filtrovaných příkladů:' , počet_filtrovaných_příkladů )

Výstup:



Vysvětlení:

Řádek 1: Importujeme požadovaný balíček load_dataset z datových sad.

Řádek 4: Načteme datovou sadu „imdb“ pomocí load_dataset.

Řádky 7 až 12: Definujeme funkci vlastního filtrování custom_filter zachovat příklady s pozitivním sentimentem (označení == 1). Tato funkce vrací pouze ty řádky, jejichž hodnota popisku je 1.

Řádek 15: Tento řádek ukazuje, že datová sada obsahuje data recenze filmu „imdb“. Nyní na tuto databázi aplikujeme funkci filtru, abychom oddělili pozitivní recenze od databáze, která je dále uložena v „filtered_dataset“.

Řádky 18 a 19: Nyní zkontrolujeme, jaké názvy sloupců jsou k dispozici v sadě filtrovaných_dat. Kód „filtered_dataset.column_names“ tedy poskytuje podrobnosti o našich požadavcích.

Řádky 22 a 23: V těchto řádcích vyfiltrujeme sloupec „vlak“ filtrované_datové sady a vypíšeme celkové číslo (délku) sloupce vlaku.

Řádek 26: V tomto posledním řádku vytiskneme výsledek z řádku číslo 23.

Filter() s indexy

Metodu filter() lze také použít s indexy, jak je vidět v režimu select(). K tomu však musíme zmínit, že klíčové slovo „with_indices=true“ musí být specifikováno mimo metodu filter(), jak ukazuje následující příklad:

odd_dataset = datový soubor. filtr ( lambda příklad , idx: idx % 2 != 0 , s_indexy = Skutečný )

tisk ( jen ( odd_dataset ) )

V tomto příkladu jsme použili metodu filter() k odfiltrování požadovaných informací z datové sady, včetně pouze těch řádků, které jsou liché.

Kompletní podrobnosti o každém parametru metody filter() naleznete zde odkaz .

Závěr

Knihovna datových sad Hugging Face poskytuje výkonnou a uživatelsky přívětivou sadu nástrojů pro efektivní práci s různými datovými sadami, zejména v kontextu zpracování přirozeného jazyka (NLP) a úloh strojového učení. Funkce filter() prezentovaná v programu umožňuje výzkumníkům a praktikům extrahovat relevantní podmnožiny dat definováním uživatelsky definovaných kritérií filtrování. Pomocí této funkce mohou uživatelé bez námahy vytvářet nové datové sady, které splňují specifické podmínky, jako je udržování pozitivního sentimentu ve filmových recenzích nebo extrahování specifických textových dat.

Tato ukázka krok za krokem ukazuje, jak snadné je načíst datovou sadu, aplikovat funkce vlastního filtru a přistupovat k filtrovaným datům. Flexibilita parametrů funkcí navíc umožňuje vlastní operace filtrování, včetně podpory vícenásobného zpracování velkých souborů dat. Pomocí knihovny datových sad Hugging Face mohou uživatelé zefektivnit svá data.