Pandas Join vs Merge

Pandas Join Vs Merge



„Pandas“ je vysoce výkonný nástroj pro prostředí python. Jedná se o „otevřený“ zdrojový kód pro analýzu dat. Ke spojení dvou datových rámců do jednoho datového rámce se používá spojení pand a metoda sloučení pand. V obou metodách pand je rozdíl v tom, že funkce pandas „join“ se připojí k datovému rámci pomocí indexu. Zatímco funkce pandy „sloučit“ se připojí k datovému rámci pomocí indexu a metody sloupců, ve které si můžeme sami vybrat požadovaný sloupec. Slučovací metoda pand se používá většinou ve srovnání s metodou spojování pand. Software, který budeme používat pro implementaci, je software „spyder“, který je v prostředí python, který nám poskytne výhody pro implementaci kódu metody pandas join method() a funkce metody pandas merge().

Syntaxe metody Pandas Join()

'df1. připojit ( df2 )

„df“ ve výše uvedené syntaxi je zkratka „dataframe“. V syntaxi jsou dva datové rámce s funkcí „dot join“, která slouží k volání metody. Je to metoda pandy spojující dva datové rámce. Funguje to tak, že pomocí indexu sloučí datové rámce do jednoho.







Syntaxe metody Pandas Merge()

'df1. spojit ( df2 , na = 'název_sloupce' )

Syntaxe metody sloučení pandas má dva datové rámce jako „df1“ a „df2“. Funkce „dot merge“ vyvolává metodu spojení obou datových rámců se vzhledem inverzních sloupců.



Budeme se zabývat následujícími způsoby kombinace dvou datových rámců za účelem použití metod sloučení pand a spojení pand:



  • Překrývající se metoda Pandas Join.
  • Pandy se k metodě připojují pomocí resetu indexu.
  • Metoda sloučení Pandy (sloupec „vlevo a vpravo“).
  • Explicitní metoda sloučení Pandy.

Vytvoření datových rámců pro implementaci metody Pandas Merge a Pandas Join

Nejprve musíme vytvořit datový rámec. K tomu budeme používat nástroj „spyder“. Po jeho otevření začněte psát kód. Importujte pandy jako „pd“ pro asociaci knihovny pandy. Máme proměnné datového rámce jako „x“, „y“, „p“ a „q“ a „a“ s hodnotami „1“ a „b“ s hodnotou přiřazenou jako „2“.





Výstupem je „df“ vytvořený s přiřazenými hodnotami. Můžeme to udělat tak velké, jako jsou data.



Vytvoření dalšího datového rámce

Musíme vytvořit další datový rámec, abychom jasně porozuměli metodám spojování pand a slučování pand. Zde máme „df“ vytvořeno stejně jako výše „df“, pouze hodnoty jsou přiřazené proměnné se liší. Máme „h“, „j“, „s“ a „d“, zatímco hodnoty „b“ přiřazujeme hodnotou „8“ a „Y“ hodnotou „3“.

Výstup ukazuje vytvořený jednoduchý „df“.

Příklad č. 01: Metoda spojení pand (překrývající se)

Nyní uvidíme, jak spojit dva datové rámce pomocí metody spojení pandas. Pro tuto metodu si můžeme vybrat vámi zvolený sloupec, na kterém chceme z dataframe pracovat. Vzali jsme příklad s překrývajícím se sloupcem „vlevo“ z „df“, takže to můžeme opravit pomocí „přípony“, abychom předešli překrývání dat. Zde se používají proměnné „x“, „z“, „v“, „d“. „p“, „o“, „l“ a „y“ s hodnotami přiřazenými jako „3“, „6“, „7“ a „9“. „.join“ volá metodu se zarovnáním nastaveným na levé spojení s pravou příponou „df“. “. „Přípona“ použitá v kódu je způsobena tím, že v datovém rámci jsou dva sloupce, které mají stejný název, který je „klíč“, a které nebudou překrývat data.

Výstup nezobrazuje žádná překrývající se data s metodou spojení dvou „df“ pomocí metody spojení pandas.

Příklad č. 02: Metoda spojení Pandas pomocí resetování indexu

V tomto příkladu budeme samostatně specifikovat sloupec s parametrem „on“, který se má použít jako „klíč“ ve spojení metody, která pomáhá při spojení dvou datových rámců. kombinovaná věc se provádí s tímto parametrem. Také index jednoho ze dvou „df“ by měl být podobný, aby je bylo možné spojit. Podobné druhy údajů nebo údajů používaných pro stejný účel mohou být pro zpracování společně. Tím se použije index stále pomocí zprava. Proměnné jsou „s“, „t“, „u“, „v“, „n“, „w“, „k“ a „q“. Přiřazené hodnoty jsou „3“, „6“, „7“ a „9“. „Reset dot index“ je metoda pand, jak resetovat index „df“. Resetovací index nastaví všechna celá čísla vašeho výpisu datového rámce od 0, dokud se data datového rámce neprodlouží.

Zde je výstup zobrazený pomocí indexové „klíčové“ metody spojení pand.

Příklad č. 03: Metoda sloučení pandy (sloupec „vlevo a vpravo“)

Metoda sloučení provádí podobnou operaci jako metoda spojení pandas. Obě metody jsou pro kombinování dat na podobném datovém rámci. Metoda sloučení je všestrannější a vyžaduje zadání klíče. Můžeme jej také specifikovat v levém a pravém sloupci v závislosti na práci vašeho datového rámce. Proměnné v kódu jsou „s“, „d“, „g“, „f“, „k“, „j“, „b“ a „q“. přiřazené hodnoty jsou „9“, „5“, „6“ a „7“. Vnější implementace „join“ se provádí na obou „df“ pomocí parametru „how“ funkce metody pandas merge.

Výstup, který vidíme, ukazuje sloučená data dvou datových rámců. „NaN“ představuje „není číslo“, což znamená, že tam, kde v datech není přiřazeno žádné číslo, je tam uvedeno „NaN“.

Příklad č. 04: Metoda sloučení Explicitně

Zde v tomto příkladu je metoda sloučení zničením indexu a hodnota indexu se na datovém rámci nepředpokládá. Tuto metodu budeme provádět podle práce, kterou je třeba udělat, kde má následovat explicitní specifikace. Sloučí data na základě levého indexu nebo pravého indexu s parametrem. Proměnné v tomto datovém rámci jsou „t“, „r“, „I“, „u“, „h“, „o“, „e“ a „e“. Přiřazené hodnoty jsou „2“, „4“, „6“ a „4“. Výše uvedený příklad metody sloučení pand s výběrem sloupců podle potřeby je nejreprezentativnější a nejhodnotnější metodou spojení dvou datových rámců. Kontrola na konci řádku kódu, zda je slučovací klíč v datové sadě jedinečný.

V níže uvedeném výstupu není index zobrazen bez indexu, ale funkce se provádí na základě pravého a levého indexu.

Závěr

Metody merge() a join() jsou obě metody, které jsou velmi pohodlné a efektivní. Obě tyto funkce se používají pro spojení dvou samostatných datových rámců na stejném datovém rámci, ale mají různé použití v závislosti na případu. V tomto článku jsme se naučili klíčové rozdíly mezi metodou spojení a sloučení pand. Po provedení příkladů a pochopení metody spojování pand ji uzavřeme s vědomím, že pokud chceme flexibilnější spojování ve stylu databáze, je vhodnější použít metodu sloučení pand. Na druhou stranu, pokud chceme provést kombinování datového rámce s indexem extenzivně, můžeme použít funkci metody pandas join().