Co je Dalle-mini a jak to funguje?

Dalle-mini je model hlubokého učení, který dokáže vytvářet obrázky vysoké kvality ze vstupního textu uživatele. Je založen na modelu DALL-E, který OpenAI vydala v lednu 2021. DALL-E znamená „ Rozptýlený jazyk a latentní výraz “ je neuronová síť založená na transformátoru, která dokáže kódovat text a obrázky do společného latentního prostoru a poté je dekódovat zpět do obou modalit.

Tento článek vysvětlí následující obsah:

Co je Dalle-mini?

Dejte jí mini je menší a rychlejší verze DALL-E, která byla vytvořena EleutherAI, open-source výzkumným kolektivem. Dalle-mini používá pouze 6 miliard parametrů ve srovnání s 12 miliardami DALL-E a může běžet na jediném GPU. Dalle-mini také používá jiný tokenizér a slovní zásobu pro zadávání textu, díky čemuž je lépe kompatibilní s různými jazyky a doménami:

Poznámka : Uživatelé mohou generovat bezplatné obrázky pomocí Dalle-mini podle následujících pokynů odkaz .

Jaké je fungování Dalle-mini?

Hlavní myšlenkou Dalle-mini je síla transformátorů, což jsou neuronové sítě. Mohou se naučit dlouhodobé závislosti a složité vzorce v sekvenčních datech, jako je text nebo obrázky.

Transformátory se skládají ze dvou hlavních částí: kodéru a dekodéru. První část vezme vstup (textový popis) a změní jej na skryté vektory. Poté jej dekodér vezme a vygeneruje výstup (obrázek), který je relevantní pro vstup.

Jaký je rozdíl mezi Dalle-mini a DALL-E?

Dalle-mini a DALL-E používají sdílenou architekturu kodéru a dekodéru pro text i obrázky. Mohou kódovat a dekódovat obě modality pomocí stejné sítě. To jim umožňuje naučit se společný latentní prostor, který zachycuje sémantický vztah mezi textem a obrázky. Poté jim umožňuje provádět mezimodální generování, jako je vytváření obrázků z textu nebo naopak.

Jak funguje Dalle-mini?

Při generování obrázku z textového popisu Dalle-mini nejprve tokenizuje text pomocí algoritmu kódování bajtů (BPE), který rozděluje text na jednotky podslov na základě jejich frekvence a společného výskytu:

Pojďme se podrobně zabývat vnitřním fungováním Dalle-mini:

Interní práce Dalle-mini

Předpokládejme, že slovo „ hraní “ může být rozděleno na “ pla ' a ' ying “. Tokeny jsou poté mapovány na číselná ID pomocí slovní zásoby 8192 tokenů. ID jsou vložena do kodéru a vytvoří latentní reprezentaci o velikosti 256 x 64:

Dekodér pak vezme latentní reprezentaci a vygeneruje obrázek o velikosti 256 x 256 pixelů. Dekodér používá autoregresivní proces, což znamená, že generuje každý pixel jeden po druhém, podmíněný předchozími pixely a latentní reprezentací.

Jak vygenerovat obrázek z textového popisu pomocí Dalle-mini?

Chcete-li vygenerovat textový popis z obrázku pomocí Dalle-mini, zadejte text do okna výzvy. Zadejte například „ Obraz náhodných květin “ ve výzvě a stiskněte „ Běh ' knoflík:

Výstup ukazuje, že Dalle-mini vygenerovalo relevantní obrázky podle vstupního textu.

Závěr

Dalle-mini je pozoruhodný model, který demonstruje potenciál transformátorů pro crossmodální generaci. Dokážou vytvořit realistické a rozmanité obrázky z popisů v přirozeném jazyce, stejně jako souvislé a relevantní texty z obrázků. Zvládnou také složité kompozice, jako je kombinace více objektů nebo atributů v jednom obrázku nebo textu. Tento článek podrobně vysvětlil Dalle-mini a jeho fungování.

Co je Dalle-mini a jak to funguje?

Co je Dalle-mini?

Jaké je fungování Dalle-mini?

Jaký je rozdíl mezi Dalle-mini a DALL-E?

Jak funguje Dalle-mini?

Jak vygenerovat obrázek z textového popisu pomocí Dalle-mini?

Závěr

Kategorie

Populární Příspěvky

Jak extrahovat data z typu JSON v MySQL

Jaký je rozdíl mezi AWS a DevOps?

Dotaz na verzi Oracle

Jak nainstalovat Java OpenJDK a OpenJRE na Debian 12

Jak předat argumenty metodám v Javě?

30 Příklady vektorů C++

Pochopení brány Exclusive-NOR – Kompletní návod

Co jsou statické bloky v Javě

Jak používat funkci ceil() v PHP?

Jak vyrobit růžové barvivo v Minecraftu

Jak zkontrolovat existenci vstupního argumentu ve skriptu Bash Shell

Jak kreslit v MATLABu

Jak zkontrolovat, zda je hodnota číslem v JavaScriptu

Může Arduino běžet na powerbance

Co jsou STL kontejnery v C++

Elasticsearch Získejte statistiku sledujících

Opravte nefunkční mikrofon Discord ve Windows 11/10

Nejlepší alternativy k rozmnožování pro Android

Co dělá událost onmouseover v JavaScriptu

Jak upravit soubor Hosts ve Windows