Jak provádět čištění dat pomocí Pythonu a Pandy

Jak Provadet Cisteni Dat Pomoci Pythonu A Pandy



Naučit se čistit data pomocí Pythonu a Pandas je zásadní pro každého, kdo pracuje s daty. Čištění dat se většinou používá pro přesnou analýzu a modelování odstraněním chyb a nekonzistencí. Tento průvodce vás krok za krokem provede procesem, který nám ukáže, jak zacházet s chybějícími údaji a jak najít nebo identifikovat odlehlé hodnoty. S našimi nástroji Python a Pandas můžeme přeměnit chaotická data na čisté a použitelné informace. Tato příručka nám také pomáhá zlepšit kvalitu našich dat a připravit je na analýzu a rozhodování.

Čištění dat pomocí Pythonu a Pandy

Data jsou dnes jako stavební kameny rozhodování. Ale představte si, že máte skupinu bloků různých tvarů a velikostí z této kolekce; je těžké postavit něco smysluplného. Zde přichází na řadu čištění dat.

Tato příručka zkoumá, jak vyčistit data pomocí rámce Pythonu, což je Pandas pro lepší rozhodování. Čištění dat je také nezbytné, vezmeme-li v úvahu, že pracujeme se seznamem evidence tržeb pro prodejnu. Můžeme si všimnout některých chybějících čísel, podivných dat a opakovaných položek bez důvodu v seznamu. Pokud provedeme výpočty nebo záznamy na základě těchto informací, mohou tyto problémy zkazit naše výpočty a předpovědi. Čištění dat pomáhá tyto problémy vyřešit a zajišťuje, že naše data jsou přesná a připravená k použití.







Čištění dat zahrnuje manipulaci s chybějícími daty a co dělat, když některá data chybí, odstranění duplikátů, odstranění zkopírovaných věcí, opravu datových typů, ujištění se, že je vše ve správném formátu a řešení odlehlých hodnot nebo zpracování čísel. které do sebe nezapadají. Tyto chyby způsobují, že data vypadají stejně a standardizují, jak se data zobrazují.



Chcete-li začít, nejprve se ujistěte, že máme nainstalovaný Python a Pandas. Můžeme to udělat zadáním příkazů do terminálu nebo příkazového řádku našeho počítače. K implementaci kódů, které jsou uvedeny v této příručce, můžeme použít Python Pycharm IDE, které je nainstalováno v našem systému, nebo online platformu Python, která je „Google Colab“ a nainstalovat příkazy „pip“ pro instalaci důležitých knihoven.



Nyní importujme Pandy a načtěte naše ukázková data. V tomto příkladu používáme ke spuštění kódů Google Colab. Nejprve tedy importujeme Pandy zadáním následujícího příkazu:





! pip install pandy

import pandy tak jako pd

import nemotorný tak jako např.

Poté načteme datovou množinu, kterou chceme zobrazit, pomocí metody pd.read(), která jako svůj vstupní parametr vezme cestu k souboru.

# Načtěte datovou sadu

data = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte prvních několik řádků

tisk ( data. hlava ( ) )



V dalším příkladu použijeme data o tržbách v malé prodejně. Abychom zvládli chybějící data, informace v našich datech někdy chybí. Tyto chybějící části nazýváme „NaN“ (což znamená „ne číslo“). Abychom našli tyto chybějící hodnoty ve skriptu Python, nejprve načteme datovou sadu jako v předchozím příkladu. Poté najdeme všechny chybějící hodnoty v sadě dat pomocí funkce „missing_values ​​= data.isnull().sum()“. Tato funkce najde všechny chybějící hodnoty v datové sadě. Poté je zobrazíme pomocí funkce print ().

! pip install pandy
import pandy tak jako pd
import nemotorný tak jako např.

# Načtěte datovou sadu
data = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte prvních několik řádků
tisk ( data. hlava ( ) )

# Zkontrolujte chybějící hodnoty
chybějící_hodnoty = data. je nulový ( ) . součet ( )

# Zobrazte počet chybějících hodnot podle sloupce
tisk ( chybějící_hodnoty )

Poté, co najdeme jakákoli chybějící data v libovolném řádku, který spouští výše zmíněný kód, můžeme tyto řádky odstranit, protože tyto řádky neobsahují mnoho užitečných dat. Můžeme dokonce uhodnout tyto chybějící hodnoty a vyplnit prázdná místa kvalifikovanými odhady odhadem dat založených na čase na základě blízkých bodů.

Nyní odstraníme duplikáty, které jsou kopiemi stejné věci, protože mohou zmást naši analýzu. K nalezení duplicitních hodnot v sadě dat používáme funkci „duplicate_rows = data[data.duplicated()]“. K odstranění těchto duplicitních hodnot zavoláme funkci data.drop_duplicates(). Můžeme je najít a odstranit pomocí následujícího kódu:

! pip install pandy
import pandy tak jako pd
import nemotorný tak jako např.
# Načtěte datovou sadu
data = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Zobrazte prvních několik řádků
tisk ( data. hlava ( ) )

# Zkontrolujte duplicitní řádky
duplicitní_řádky = data [ data. duplikované ( ) ]

# Odstraňte duplikáty
data = data. drop_duplicates ( )

# Zobrazte několik prvních řádků po odstranění duplikátů
tisk ( data. hlava ( ) )

Datové typy rozhodují o tom, jaká data lze uložit, aby bylo možné datové typy opravit. Pro každý druh dat je důležité mít správný typ. Například data by měla mít datový typ datum a čas a čísla by měla být v datovém typu jako int, float atd. Ke kontrole datových typů našich dat používáme funkci „data.dtypes“. Tuto funkci lze využít následujícím způsobem:

! pip install pandy
import pandy tak jako pd
import nemotorný tak jako např.
# Načtěte datovou sadu
data = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Zobrazte prvních několik řádků
tisk ( data. hlava ( ) )
# Zkontrolujte datové typy každého sloupce
typy dat = data. dtypes

# Zobrazení datových typů
tisk ( typy dat )

Pokud najdeme nějaké problémy, můžeme změnit typ dat pomocí Pandas. Můžeme například udělat data do formátu data. Atribut „dtypes“ DataFrame poskytuje informace o datových typech každého sloupce. Pokud zjistíme, že datový typ se neshoduje, můžeme pomocí funkce Pandas' astype() převést sloupce na požadované typy.

Po datových typech se někdy setkáváme s odlehlými hodnotami, což jsou hodnoty, které se velmi liší od ostatních. Mohou zkazit naše výpočty. Abychom se vypořádali s odlehlými hodnotami, definujeme funkci, která používá funkci z-score „np.abs(stats.zscore(data))“, která porovnává hodnoty, které existují v našich datech, s prahovou hodnotou. Jakákoli hodnota jiná než rozsah této prahové hodnoty se považuje za odlehlou hodnotu . Podívejme se, jak najít a zpracovat odlehlé hodnoty:

! pip install pandy
import pandy tak jako pd
import nemotorný tak jako např.

# Načtěte datovou sadu
data = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Zobrazte prvních několik řádků
tisk ( data. hlava ( ) )
z scipy import statistiky

def detekovat odlehlé hodnoty ( data ) :
z_skóre = např. břišní svaly ( statistiky. zscore ( data ) )
vrátit se např. kde ( z_skóre > 3 )

# Zjistěte a zpracujte odlehlé hodnoty ve sloupci „Prodej“.
odlehlé hodnoty = detekovat odlehlé hodnoty ( data [ 'zeměpisná délka' ] )
data [ 'zeměpisná délka' ] . místo [ odlehlé hodnoty ] = data [ 'zeměpisná délka' ] . medián ( )

# Zjistěte a zpracujte odlehlé hodnoty ve sloupci 'Prodané jednotky'
odlehlé hodnoty = detekovat odlehlé hodnoty ( data [ 'zeměpisná šířka' ] )
data [ 'zeměpisná šířka' ] . místo [ odlehlé hodnoty ] = data [ 'zeměpisná šířka' ] . medián ( )

# Zobrazte prvních několik řádků po manipulaci s odlehlými hodnotami
tisk ( data. hlava ( ) )

K nalezení a opravě odlehlých hodnot v předchozím kódu používáme jednoduchou metodu. Zahrnuje nahrazení extrémních hodnot střední hodnotou dat. Tento kód používá metodu Z-score k detekci odlehlých hodnot ve sloupcích „zeměpisná délka“ a „zeměpisná šířka“ naší sady dat. Odlehlé hodnoty jsou nahrazeny středními hodnotami příslušných sloupců.

Aby data vypadala stejně, mohou někdy vypadat jinak, i když znamenají totéž. Například data mohou být zapsána v různých formátech. Standardizace zahrnuje zajištění konzistentního formátu dat a reprezentace. To může zahrnovat formátování dat, převod textu na malá písmena nebo normalizaci číselných hodnot. Standardizujme sloupec „Datum“ v naší datové sadě a ujistěte se, že naše data vypadají stejně:

import pandy tak jako pd
import nemotorný tak jako např. # Import numpy

# Načtěte data
data = pd. read_csv ( 'sales_data.csv' )

# Zajistěte, aby sloupec 'Datum' vypadal konzistentně
data [ 'Datum' ] = pd. to_datetime ( data [ 'Datum' ] )

# Podívejte se, jak to teď vypadá
tisk ( data. hlava ( ) )

V tomto příkladu standardizujeme formát data v naší datové sadě na formát datetime v Pythonu pomocí funkce „pd.to_datetime(data[‘Date’])“. Převedením sloupce „Datum“ do stejného formátu usnadňujeme práci s těmito údaji. Výstup zobrazuje prvních několik řádků datové sady se standardizovaným sloupcem „Datum“.

Závěr

Na naší cestě čištěním dat pomocí Pythonu a Pandas jsme se naučili, jak vylepšit naše data pro analýzu. Začali jsme tím, že jsme pochopili, proč je čištění dat tak důležité. Pomáhá nám dělat lepší rozhodnutí. Zkoumali jsme, jak se vypořádat s chybějícími daty, odstranit duplikáty, opravit datové typy, zvládnout odlehlé hodnoty a zajistit, aby naše data vypadala stejně. S těmito dovednostmi jsme lépe připraveni proměnit chaotická data v něco, čemu můžeme důvěřovat a pomocí kterého objevíme důležité informace. Čištění dat je neustálý proces, jako je udržování pořádku v našem pokoji, a díky němu je naše cesta analýzy dat úspěšnější.