Funkce Sample() v R

Funkce Sample V R



V R získáme náhodně vzorové hodnoty z vektoru nebo seznamu pomocí funkce sample(). Umožňuje nám náhodně vybrat podmnožinu dat, což je užitečné v mnoha statistických aplikacích. Pokud je vstupem seznam ve funkci sample(), výstupem bude také seznam se stejným počtem prvků, ale s vybranými prvky. Tento článek ukazuje funkci sample() jazyka R s implementací, která nastavuje různé argumenty.

Příklad 1: Použití funkce Sample() s argumentem Data

Aby bylo možné náhodně vygenerovat číslo, musí být se vzorovými daty poskytnuta funkce sample() funkce R. Ukázková data jsou povinným argumentem funkce sample(), jejíž kód je uveden v následujícím textu:

dataX < - c ( 10 , dvacet , 30 , 40 , padesáti , 60 , 70 , 80 , 90 , 100 )

vzorek ( dataX , 3 )

vzorek ( dataX , 3 )

Zde nejprve vygenerujeme vektory celočíselných prvků v proměnné „dataX“. Dále v kódu dvakrát zavoláme funkci sample() a předáme jí jako argument vektor „dataX“, který jsme dříve vygenerovali. První použití vzorku (dataX, 3) vezme náhodný vzorek tří prvků z vektoru „dataX“. Výsledky jsou náhodnou permutací tří prvků z „dataX“. Poté opět použijeme sample(a, 5), který vezme další nezávislý náhodný vzorek tří prvků z vektoru „dataX“. Tentokrát je výsledek zcela odlišný od předchozího.







Výstup zobrazuje různé prvky při volání funkce sample() dvakrát. Všimněte si, že pokaždé, když vytvoříme vzorek náhodně, získají se různé prvky z vektorů:





Příklad 2: Použití funkce Sample() s argumentem Nahradit

Dále máme argument „nahradit“ funkce sample(), který přebírá logické hodnoty. Podobný prvek lze vybrat více než jednou, pokud je prvek vzorkován s možností nahrazení TRUE. Pokud je však hodnota nastavena na FALSE, může existovat pouze jeden výběr každého prvku, který způsobí, že prvky budou vzorkovány bez náhrady.





náhodná_čísla = C ( jedenáct , 25 , 12 , 89 , Čtyři pět , 16 , 67 , 38 , 96 , 55 , 73 )

vzorek ( náhodná_čísla , 4 , nahradit = SKUTEČNÝ )

vzorek ( náhodná_čísla , 5 , nahradit = SKUTEČNÝ )

Zde nejprve definujeme vektor s některými číselnými hodnotami v proměnné „random_numbers“. Poté zavoláme funkci sample(), kde se jako argument předá „náhodná_čísla“. Hodnota „4“ je určena funkci sample(), což znamená, že vybírá pouze čtyři náhodné hodnoty z vektorů v „náhodných_číslech“.

Dále funkce replace=TRUE ve funkci sample() určuje, že každou hodnotu lze vybrat více než jednou. Poté znovu nasadíme funkci sample(), která tentokrát vybere z vektorů „5“ náhodných hodnot. Podobně nastavíme argument nahrazení na „TRUE“ jako dříve pro více možností výběru pro každou hodnotu.



Jak vidíme, první výstup zobrazuje vektor 4 náhodně vybraných prvků z vektoru „random_numbers“. Další výstup však zobrazí vektor „5“ náhodně vybraných prvků:

Příklad 3: Použití funkce Sample() s argumentem Size

Dalším argumentem, který funkce sample() projde, je „velikost“. „Velikost“ je volitelný parametr, který udává hodnotu vzorků, které mají být vykresleny. Kód funkce sample() s parametrem „size“ je uveden v následujícím textu:

vektory < - 1 : 10

vzorek ( vektory , velikost = 5 )

Zde je číselný vektor definován jako posloupnost celých čísel od 1 do 10 v proměnné „vectors“. Funkce sample() se pak použije k náhodnému výběru prvků z vektoru. Jak vidíme, funkce sample() má dva argumenty. Prvním argumentem jsou vektory, ze kterých získáváme vzorek. Dalším argumentem je velikost, která je zadána hodnotou „5“, což znamená, že z vektoru lze vybrat pouze pět prvků.

Vybrané prvky jsou tedy vráceny v náhodném pořadí jako nový vektor v následujícím výstupu:

Příklad 4: Použití funkce Sample() pro seznam R

Kromě toho lze pro seznam v R použít funkci sample(). Tato část příkladu získává náhodné hodnoty ze seznamu.

R_list < - seznam ( 1 : 4 ,

913 ,

C ( 'X' , 'YYY' , 'DOBRÝ' ) ,

'ZZZ' ,

5 )

výsledek < - R_list [ vzorek ( 1 :délka ( R_list ) , velikost = 4 ) ]

výsledek

Zde je seznam „R_list“ definován s prvky různých typů včetně vektoru čísel, jednoho čísla, znakového vektoru, řetězce a dalšího čísla. Poté vytvoříme proměnnou „výsledek“, kde se vyvolá funkce sample().

Uvnitř funkce sample() nastavíme výraz „1:length(R_list)“, který označuje vektory indexů, které se mají vzorkovat. Dále máme argument „velikost“, který určuje počet prvků, které mají být vzorkovány, což je „4“. Proto „R_list“ generuje tři náhodně vybrané prvky ze seznamu „R_list“. Protože prvky v seznamu „R_list“ jsou různých typů, výsledné prvky v „výsledku“ mohou být také různých typů.

Výstup představuje nový seznam, který obsahuje náhodnou podmnožinu původního seznamu:

Příklad 5: Použití funkce Sample() s argumentem Prob

Navíc máme parametr „prob“ funkce sample(). Argument „prob“ udává pravděpodobnost vybraného prvku ve vektoru. Všimněte si, že pokud není použit argument „prob“, předpokládá se, že všechny prvky mají stejnou pravděpodobnost.

moje_data = C ( 31 , 99 , 5 , 24 , 72 )

vzorek ( moje_data , velikost = 10 , nahradit = SKUTEČNÝ ,

prob = C ( 0,5 , zástupce ( 0,1 , 4 ) ) )

Zde jsou prvky číselných vektorů odkazovány na „moje_data“. V dalším kroku zavoláme funkci sample(), kde se „my_data“ předá náhodně vybraným 10 prvkům z ní. Poté je definován argument „velikost“, který určuje, že náhodně vybraná hodnota by měla mít velikost „10“. Poté argumentu „nahradit“ přiřadíme „TRUE“, což znamená, že každý vybraný prvek je nahrazen do vektoru před výběrem dalšího. Třetí argument, který je definován ve funkci sample() je „prob“, který definuje pravděpodobnost výběru každého prvku ve vektoru „my_data“. Pravděpodobnost prvního prvku je nastavena na „0,5“. Pro zbývající čtyři vektorové prvky je pravděpodobnost „0,1“.

Následující výstup je načten s nejvyšší pravděpodobností prvního prvku ve vektorech podle očekávání:

Příklad 6: Použití funkce Sample() k vykreslení Barplotu

A konečně, funkce sample() se používá ke konstrukci barplotu v R pro vizualizaci distribuce kategorické proměnné s daným rozdělením pravděpodobnosti.

vzorek dat = C ( 1 , 2 , 3 )

barplot ( stůl ( vzorek ( vzorek dat , velikost = 500 , nahradit = SKUTEČNÝ , prob = C ( .30 , .60 , .10 ) ) ) )

Zde po definování „sample_data“ s vektorem celočíselné hodnoty vygenerujeme barplot nasazením funkce sample(). Nejprve zavoláme barplot, který vyvolá funkci table() k vytvoření frekvenční tabulky výsledného vzorku. Poté specifikujeme funkci sample() v rámci funkce table(), kde je náhodný vzorek o velikosti 1000 nakreslen z vektoru celých čísel 1 až 3. Potom se argument „prob“ použije k určení pravděpodobnosti výběru každého celého čísla. .

Jak nyní vidíme, barplot je vykreslen následovně se třemi pruhy, jedním pro každé celé číslo, a výška pruhů je relevantní pro celé číslo, které se vyskytuje ve vzorku:

Závěr

Viděli jsme, jak funguje funkce sample() na různých příkladech. Funkce sample() se používá s různými argumenty, kde jsou vyžadována ukázková data a všechny ostatní argumenty jsou volitelné a jsou volány ve specifických případech. Funkce sample() je však užitečná při statistické analýze nebo při práci s velkými soubory dat.