Co jsou datové typy Amazon Redshift?

Co Jsou Datove Typy Amazon Redshift



Amazon Redshift je cloudové řešení nabízené společností AWS, které plní účel datového skladu. Datový sklad je velký prostor v cloudu, který ukládá obrovské množství dat. Rozdíl mezi datovým skladem a databází je v tom, že databáze neukládá pouze aktuální data, ale také kompletní historii dat.

V tomto článku se dozvíte o Amazon Redshift od AWS a datových typech, které tato služba podporuje.







Co je Amazon RedShift?

Jedná se o cloudové řešení pro datové sklady, které je založeno na 'PostgreSQL' . Využívá technologii tzv „Massively Parallel Processing (MPP)“ zpracovávat petabajty dat rychlostí blesku. To poskytuje snadné řešení pro predikci v reálném čase na základě historických dat a řešení streamování.



Následující obrázek ukazuje pracovní mechanismus Amazon Redshift:







Toto grafické vysvětlení toho, jak Amazon Redshift funguje, je velmi jednoduché a jasné. Poskytuje nám informace o tom, jak jsou data získávána a dále zpracovávána za účelem generování výstupů a vytváření aplikací řízených daty.

Architekturu datového skladu Amazon Redshift lze také vidět na obrázku níže:



Nyní se podíváme na využití a funkce této služby.

Funkce

Jak již bylo zmíněno, Amazon Redshift je založen na PostgreSQL a využívá technologii nazvanou Massively Parallel Processing, která mu umožňuje zpracovávat petabajty dat během okamžiku. Redshift proto nabízí řadu funkcí a využití. Některé z těchto funkcí jsou uvedeny níže:

  • Zabezpečení dat a šifrování.
  • Business Analytics.
  • Podpora aplikací řízených daty.
  • Prediktivní analýza.
  • Automatické opakování úkolů.
  • Souběžné škálování dat.
  • Skladování dat.

Některé další funkce této služby lze vidět na obrázku níže:

To byla většina funkcí, které Redshift nabízí a nyní se přesuneme k datovým typům podporovaným touto službou.

Typy dat

Amazon Redshift je řešení pro datové sklady s velkým množstvím funkcí. Podporuje strukturované i nestrukturované datové typy. Protože je založen na PostgreSQL, lze s daty manipulovat pomocí jednoduchých SQL dotazů.

Nyní vyvstává další otázka, tedy jak se tyto datové formáty od sebe liší? Pojďme diskutovat o těchto dvou formátech dat.

Strukturovaná data

Vysoce formátovaný datový typ, který lze snadno přeložit pomocí algoritmů strojového učení, se nazývá strukturovaná data. SQL databáze pracuje se strukturovanými daty. Strukturovaná data jsou v tabulkové formě, jako jsou data používaná relačními databázemi

Jedním z široce používaných systémů pro správu databází SQL je MYSQL. Jeho architekturu můžete vidět níže na daném obrázku:

Nestrukturovaná data

Nestrukturovaná data jsou méně vzorovaná a formátují méně dat, jako jsou data používaná v nerelačních databázích. MongoDB je slavná nerelační databáze. SQL dotazy nefungují na nerelačních databázích, proto se tyto databáze také nazývají databáze NoSQL.

Jak již bylo zmíněno, MongoDB je nestrukturovaný systém pro správu databází a jeho architekturu můžete vidět níže na daném obrázku:

Prošli jsme dva základní datové typy používané v databázích a nyní zamíříme ke skutečným datovým typům, které podporuje Amazon Redshift. Tyto datové typy jsou:

  • Číselná data
  • Údaje o postavách
  • Datetime Data
  • Booleovská data
  • Data HLLSKETCH
  • SUPER údaje
  • NÁHRADNÍ Údaje

Pojďme diskutovat o těchto typech dat:

Číselná data

Tento datový typ je samozřejmý. Podporuje data, která jsou ve formě celých čísel, desetinných míst, s plovoucí desetinnou čárkou a dalších číselných datových typů.

Charakteristiky celočíselného datového typu lze vidět na obrázku níže:

Desítkový datový typ ukládá data na základě přesnosti od uživatele. Jeho vlastnosti jsou následující:

Údaje o postavách

Datové typy CHAR a VARCHAR spadají do kategorie znakově orientovaných datových typů. NCHAR a NVARCHAR jsou také datové typy znakového typu. Na rozdíl od CHAR a VARCHAR tyto dva datové typy ukládají znaky Unicode s pevnou délkou. Podívejme se na vlastnosti těchto datových typů, jako například:

  • CHAR, CHARACTER, NCHAR mají rozsah 4KB.
  • VARCHAR, NVARCHAR má rozsah 64KB.
  • BPCHAR má rozsah 256 bajtů.
  • TEXT má rozsah 260 bajtů.

Datetime Data

Datové typy data a času jsou DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ. Funkční možnosti těchto datových typů jsou následující:

  • DATE jednoduše ukládá kalendářní data.
  • TIME ukládá čas bez odkazu na jakékoli časové pásmo. Ve výchozím nastavení je UTC.
  • TIMETZ ukládá čas vzhledem k časovému pásmu. Ve výchozím nastavení je to UTC v uživatelských i systémových tabulkách.
  • TIMESTAMP obsahuje nejen čas, ale také data. Ve výchozím nastavení je to UTC v tabulkách uživatelů i v systémových tabulkách.
  • TIMESTAMPTZ zahrnuje nejen čas, ale také data. Ve výchozím nastavení je UTC pouze v uživatelských tabulkách.

Booleovská data

Booleovský datový typ je binární datový typ, což znamená, že existují pouze dvě hodnoty. Tabulka charakteristik pro datový typ Boolean je uvedena níže na obrázku:

Data HLLSKETCH

Tento datový typ se používá k ukládání náčrtů. Červený posuv může představovat skici v řídké nebo husté formě. Náčrtky začínají jako řídké a postupně se stávají hustými, když hustý formát poskytuje větší efektivitu sledováním odkazu.

SUPER údaje

Tento datový typ se zabývá nestrukturovanými daty, která mohou být ve formě polí, vnořených struktur nebo JSON. Neexistuje žádný model nebo formát dat. Uživatelé mohou prozkoumat další informace pomocí odkazu.

NÁHRADNÍ Údaje

Tento datový typ také ukládá znaky. Délka je však omezená. Amazon Redshift umožňuje přetypování dat VARBYTE do dat libovolného typu celého čísla nebo typu znaku. Chcete-li získat další informace o tomto datovém typu, klikněte na níže uvedený odkaz.

To je vše, co se týká Amazon Redshift a datových typů, které podporuje.

Závěr

Amazon Redshift je služba AWS, která ve své základní podobě slouží účelu datového skladu, ale je velmi výkonným a funkčním řešením pro analýzu a predikci. Tento článek pojednává o Redshiftu a datových typech, které podporuje. Tyto datové typy byly stručně vysvětleny spolu s jejich charakteristikami.