Pandy Naplňte Nan 0

Pandy Naplnte Nan 0



Data science obvykle zahrnuje chybějící data. Buď lze zahodit celý řádek, nebo lze do kombinace řádek a sloupec přidat hodnotu. Vypuštění řádku/sloupce by bylo absurdní, protože to eliminuje určitou metriku pro každý řádek. NaN, což znamená „Not a Number“, je jedním z typických způsobů, jak zobrazit hodnotu, která v sadě dat chybí. Pro dosažení zamýšlených výsledků je manipulace s NaN docela důležitá. Pojďme tedy zjistit, jak změnit hodnoty NaN v řádku nebo sloupci Pandas DataFrame na 0.

Pandy vyplní NaN hodnoty

Pokud má sloupec ve vašem datovém rámci hodnoty NaN nebo None, můžete je pomocí funkcí „fillna()“ nebo „replace()“ vyplnit nulou (0).

vyplnit()







Hodnoty NA/NaN jsou vyplněny poskytnutým přístupem pomocí funkce „fillna()“. Může být použit s ohledem na následující syntaxi:



Pokud chcete vyplnit hodnoty NaN pro jeden sloupec, syntaxe je následující:




Když jste povinni vyplnit hodnoty NaN pro celý DataFrame, syntaxe je uvedena:






Nahradit()

Chcete-li nahradit jeden sloupec hodnot NaN, poskytnutá syntaxe je následující:




Zatímco pro nahrazení hodnot NaN celého DataFrame musíme použít následující zmíněnou syntaxi:


V tomto článku nyní prozkoumáme a naučíme se praktickou implementaci obou těchto metod k naplnění hodnot NaN v našem Pandas DataFrame.

Příklad 1: Vyplňte hodnoty NaN pomocí metody Pandas “Fillna()”.

Tento obrázek ukazuje použití funkce Pandas “DataFrame.fillna()” k vyplnění hodnot NaN v daném DataFrame 0. Chybějící hodnoty můžete vyplnit buď do jednoho sloupce, nebo je můžete vyplnit pro celý DataFrame. Zde uvidíme obě tyto techniky.

Abychom uvedli tyto strategie do praxe, musíme získat vhodnou platformu pro provádění programu. Rozhodli jsme se tedy použít nástroj „Spyder“. Náš kód Python jsme začali importem sady nástrojů „pandy“ do programu, protože potřebujeme použít funkci Pandas ke konstrukci DataFrame a také k vyplnění chybějících hodnot v tomto DataFrame. „pd“ se v celém programu používá jako alias „pandy“.

Nyní máme přístup k funkcím Pandas. Nejprve použijeme jeho funkci „pd.DataFrame()“ ke generování našeho DataFrame. Tuto metodu jsme vyvolali a inicializovali ji se třemi sloupci. Názvy těchto sloupců jsou „M1“, „M2“ a „M3“. Hodnoty ve sloupci „M1“ jsou „1“, „Žádný“, „5“, „9“ a „3“. Položky v „M2“ jsou „Žádný“, „3“, „8“, „4“ a „6“. Zatímco „M3“ ukládá data jako „1“, „2“, „3“, „5“ a „Žádný“. Požadujeme objekt DataFrame, do kterého můžeme tento DataFrame uložit, když je volána metoda „pd.DataFrame()“. Vytvořili jsme „chybějící“ objekt DataFrame a přiřadili jej podle výsledku, který jsme získali z funkce „pd.DataFrame()“. Poté jsme použili metodu „print()“ Pythonu k zobrazení DataFrame na konzoli Pythonu.


Když spustíme tento kus kódu, lze na terminálu zobrazit DataFrame se třemi sloupci. Zde můžeme pozorovat, že všechny tři sloupce obsahují hodnoty null.


Vytvořili jsme DataFrame s některými hodnotami null, abychom použili funkci Pandas „fillna()“ k vyplnění chybějících hodnot 0. Pojďme se naučit, jak to udělat.

Po zobrazení DataFrame jsme vyvolali funkci Pandas “fillna()”. Zde se naučíme doplnit chybějící hodnoty do jednoho sloupce. Syntaxe pro toto je již zmíněna na začátku tutoriálu. Zadali jsme název DataFrame a specifikovali název konkrétního sloupce pomocí funkce „.fillna()“. Mezi závorkami této metody jsme uvedli hodnotu, která bude vložena na nulová místa. Název DataFrame je „chybějící“ a sloupec, který jsme zde vybrali, je „M2“. Hodnota uvedená mezi složenými závorkami „fillna()“ je „0“. Nakonec jsme zavolali funkci „print()“, abychom zobrazili aktualizovaný DataFrame.


Zde můžete vidět, že sloupec „M2“ DataFrame nyní neobsahuje žádné chybějící hodnoty, protože hodnota NaN je vyplněna 0.


Abychom naplnili hodnoty NaN pro celý DataFrame stejnou metodou, nazvali jsme „fillna()“. To je docela jednoduché. Název DataFrame jsme poskytli funkcí „fillna()“ a v závorkách jsme přiřadili hodnotu funkce „0“. Nakonec nám funkce „print()“ ukázala vyplněný DataFrame.


Tím získáme DataFrame bez hodnot NaN, protože všechny hodnoty jsou nyní znovu vyplněny 0.

Příklad 2: Vyplňte hodnoty NaN pomocí metody Pandas „Replace()“.

Tato část článku ukazuje další metodu, jak vyplnit hodnoty NaN v DataFrame. K vyplnění hodnot v jednom sloupci a v kompletním DataFrame použijeme funkci „replace()“ Pandas.

Začneme psát kód v nástroji „Spyder“. Nejprve jsme importovali požadované knihovny. Zde jsme načetli knihovnu Pandas, abychom umožnili programu Python používat metody Pandas. Druhá knihovna, kterou jsme nahráli, je NumPy a alias „np“. NumPy zpracovává chybějící data pomocí metody „replace()“.

Poté jsme vygenerovali DataFrame se třemi sloupci – „šroub“, „hřebík“ a „vrták“. Hodnoty v každém sloupci jsou uvedeny jednotlivě. Sloupec „šroub“ má hodnoty „112“, „234“, „Žádný“ a „650“. Sloupec „hřebík“ má „123“, „145“, „Žádný“ a „711“. A konečně, sloupec „vrtání“ má hodnoty „312“, „Žádný“, „500“ a „Žádný“. DataFrame je uložen v objektu DataFrame „tool“ a zobrazen pomocí metody „print()“.


DataFrame se čtyřmi hodnotami NaN v záznamu lze vidět na následujícím výstupním obrázku:


Nyní používáme metodu Pandas „replace()“ k vyplnění hodnot null do jednoho sloupce DataFrame. Pro úlohu jsme vyvolali funkci „replace()“. Dodali jsme název DataFrame „tool“ a sloupec „šroub“ s metodou „.replace()“. Mezi jeho složené závorky nastavíme hodnotu „0“ pro položky „np.nan“ v DataFrame. K zobrazení výstupu se používá metoda „print()“.


Výsledný DataFrame nám ukazuje první sloupec s položkami NaN nahrazenými 0 ve sloupci „šroub“.


Nyní se naučíme vyplnit hodnoty v celém DataFrame. Zavolali jsme metodu „replace()“ s názvem DataFrame a poskytli hodnotu, kterou chceme nahradit položkami np.nan. Nakonec jsme vytiskli aktualizovaný DataFrame pomocí funkce „print()“.


Získáme tak výsledný DataFrame bez chybějících záznamů.

Závěr

Vypořádání se s chybějícími položkami v datovém rámci je základním a nezbytným požadavkem ke snížení složitosti a vzdornému zacházení s daty v procesu analýzy dat. Pandas nám poskytuje několik možností, jak se s tímto problémem vypořádat. V této příručce jsme přinesli dvě užitečné strategie. Obě techniky jsme uvedli do praxe pomocí nástroje „Spyder“ k provedení ukázkových kódů, aby pro vás byly věci trochu srozumitelnější a jednodušší. Získání znalostí o těchto funkcích vylepší vaše dovednosti Pandy.