Pandy Qcut

Pandy Qcut



„Python“ obsahuje mnoho knihoven, a když pak chceme analyzovat nebo manipulovat s daty, využíváme tyto „Pythonovy“ knihovny a „pandy“ jsou také jeho knihovnou. Knihovna „pandy“ se používá v oblasti datových věd a také se používá v činnostech strojového učení. DataFrame „pandy“ nám pomáhá při ukládání dat. V „pandách“, když chceme data binning, pak použijeme metodu „qcut()“. Metoda „qcut()“ se používá pro převod spojitých prvků na kategorické. V této metodě „qcut()“ můžeme přidat různé typy parametrů pro získání různých typů výsledků. Tento tutoriál je celý o metodě „qcut()“ a zde podrobně vysvětlíme metodu „qcut()“. V tomto tutoriálu vám vysvětlíme, jak provádíme binning dat pomocí funkce „qcut()“ v „pandách“.

Příklad #01

V těchto kódech použijeme metodu „qcut()“ a tyto kódy provedeme v aplikaci „Spyder“. Když musíme pracovat s „pandami“, můžeme k jejich funkcím přistupovat pouze tehdy, když importujeme knihovnu „pandy“ do našich kódů. Nejprve zadáme „import“ a poté napíšeme „pandy jako pd“. Nyní musíme použít metodu „qcut()“, takže za tímto účelem zde vytváříme DataFrame. Vytvoříme „Random_df“ obsahující sloupce „R_ID, R_name a R_age“ a také do „R_ID“ umístíme „R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 a R_81“. Poté do sloupce „R_name“ přidáme „Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob a Harper“. Poté do sloupce „R_age“ vložíme „21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 a 40“. Nyní použijeme „print()“, který obsahuje „Random_df“, a pomůže nám to vykreslit DataFrame „Random_df“. Právě jsme vytvořili DataFrame a zatím nepoužíváme metodu „qcut()“.








Ikona „Spustit“ nám pomáhá při provádění kódů. Když stiskneme tuto ikonu „spustit“, výsledek tohoto kódu se zobrazí na terminálu aplikace „Spyder“. DataFarme „Random_df“ je zobrazena jako výsledek kódu, který jsme napsali v tomto příkladu. Nyní použijeme metodu „qcut()“ a také ukážeme její výsledek.




Zde shromažďujeme data. Binujeme sloupec „R_age“ a umísťujeme metodu „pd.qcut()“, což je metoda „pandy“, která pomáhá při skládání dat. V této metodě vložíme název DataFrame a také název sloupce, na který chceme metodu „qcut()“ aplikovat. Také jsme nastavili hodnotu „q“ na „5“ a používá se pro rozřezání dat ve sloupci „R_age“ na pět stejných kvantilů. Přidáme metodu „qcut()“ do „print()“, takže také zobrazí data binningu na terminálu.




Zde se zobrazí data po binningu a rozdělí „R_age“ na pět kvantilů. Zobrazuje také kategorie, ve kterých jsou sloučena data sloupce „R_age“. Kategorická řada představuje přihrádky „R_age“.






U těchto popelnic můžeme upravit i štítek. Tyto štítky přihrádek přidáváme, aby byly snadno interpretovatelné. Přidáme sloupec „R_age_qcut“ do „Random_df“, do kterého přidáme popisky těchto přihrádek. Pro jejich označení opět používáme metodu „pd.qcut()“. Přidáme do něj štítky, které jsou „malé, ne tak málo, průměrné, vysoké a nejvyšší“. Poté znovu vložíme „Random_df“ do „print()“.


Všechny koše jsou označeny a prezentovány v tomto výsledku. V tomto DataFrame se zobrazí sloupec „R_age_qcut“, ve kterém jsou zobrazeny označené přihrádky.



Příklad #02

Pro vytvoření DataFrame nejprve přidáme „stupně“, což jsou „3, 6, 8, 7, 2, 5, 1, 9, 4, 7 a 8“. Poté přidáme jména studentů v „studentech“, což jsou „Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard a Alexander“. Poté vygenerujeme „Grades_df“, kam jsme přidali metodu „pd.DataFrame()“, a do této metody vložíme „Std_name“, které se objeví jako název sloupce, a přiřadíme tomu hodnoty „students“. Poté nastavíme „Students_grades“ jako název sloupce DataFrame a také zde přiřadíme „známky“, které jsme vytvořili výše. Poté máme „print()“, do kterého přidáme „Grades_df“ pro tisk.


Ve výsledku tohoto kódu se zobrazí DataFrame obsahující dva sloupce. Nyní použijeme metodu „qcut()“ na sloupec „Students_grades“ pro sloučení dat hodnot tohoto sloupce.


Zde přidáme nový sloupec „grade“, ve kterém jsme aplikovali „pd.qcut()“ na sloupec „Students_grades“, a také jsme použili „4“ pro hodnotu „q“, takže se omezí data do čtyř stejných kvantilů. Poté zde tyto kvantily specifikujeme umístěním hodnot do „q“, což jsou „0, .4, .8 a 1“. Pak toto také zobrazíme. Nyní tato sdružená data označujeme štítky a štítky, které zde přidáváme, jsou „D, C, A a B“ a jsou také uloženy ve sloupci „stupeň“.


Zde jsou data po binningu zobrazena zde ve sloupci „známka“ a data ze sloupce „Students_grades“ se rozdělí na čtyři stejné kvantily.


V tomto výsledku se zobrazí DataFrame, který získáme po aplikaci metody „qcut()“ a specifikaci kvantilů.


Nyní, po přidání štítků do těchto přihrádek jsou také vykresleny v tomto výsledku ve sloupci „známka“ a můžete vidět, že přiřazuje štítky podle hodnot přihrádek.

Příklad #03

Na data souboru CSV můžeme také použít metodu „qcut()“. Za tímto účelem nejprve načteme data CSV souboru pomocí metody „read_csv()“. Načítáme data souboru „office2.csv“ a poté jsou data tohoto souboru umístěna do „Office_df“. Tato metoda převede data souboru „office2“ do DataFrame a uloží je do „Office_df“. Poté tato data také zobrazíme vložením „Office_df“ do „print()“. Poté přidáme nový sloupec s názvem „Units_qcut“, na který aplikujeme funkci „pd.qcut()“ do sloupce „Units“.

Navíc nastavíme hodnotu proměnné „q“ na „5“, která rozdělí data do pěti stejných kvantilů. Data se po rozřezání na 5 stejných kvantilů uloží do sloupce „Units_qcut“ a tento sloupec se také přidá do „Office_df“ a „Office_df“ se zde opět vykreslí pomocí „print()“. Nyní tato sdružená data označujeme štítky, přidáváme štítky v metodě „qcut()“, což jsou „Jednotka 1, Jednotka 2, Jednotka 3, Jednotka 4 a Jednotka 5“ a ukládáme je také do sloupce „Štítky“. . Vykreslíme také tento DataFrame, do kterého je přidán sloupec „Labels“.


Data, která získáme po přečtení souboru „office2.csv“, jsou zde vykreslena ve formě DataFrame. Poté je přidán sloupec „Units_qcut“, ve kterém jsou zobrazeny sdružené hodnoty sloupce „Units“. Poté se přidá také sloupec „Štítky“, který přiřadí štítky k těmto sdruženým hodnotám. To vše se provádí pomocí metody „qcut()“ v „pandách“.

Závěr

V tomto tutoriálu jsme podrobně vysvětlili metodu „qcut()“, která pomáhá při sdružování dat v „pandách“. Diskutovali jsme o tom, že data jsou binována podle kvantilové hodnoty „q“, kterou jsme přidali v metodě „qcut()“, a také jsme přizpůsobili štítky těmto binovaným datům. Prozkoumali jsme metodu „qcut()“ a použili jsme tuto metodu na sloupce DataFrame a také jsme tuto metodu „qcut()“ aplikovali na data souboru CSV po načtení souborů CSV. V tomto tutoriálu jsme představili výsledek všech kódů, abychom jasně vysvětlili a ukázali výsledek metody „qcut()“.