Co je Dalle-mini a jak to funguje?

Co Je Dalle Mini A Jak To Funguje



Dalle-mini je model hlubokého učení, který dokáže vytvářet obrázky vysoké kvality ze vstupního textu uživatele. Je založen na modelu DALL-E, který OpenAI vydala v lednu 2021. DALL-E znamená „ Rozptýlený jazyk a latentní výraz “ je neuronová síť založená na transformátoru, která dokáže kódovat text a obrázky do společného latentního prostoru a poté je dekódovat zpět do obou modalit.

Tento článek vysvětlí následující obsah:







Co je Dalle-mini?

Dejte jí mini je menší a rychlejší verze DALL-E, která byla vytvořena EleutherAI, open-source výzkumným kolektivem. Dalle-mini používá pouze 6 miliard parametrů ve srovnání s 12 miliardami DALL-E a může běžet na jediném GPU. Dalle-mini také používá jiný tokenizér a slovní zásobu pro zadávání textu, díky čemuž je lépe kompatibilní s různými jazyky a doménami:




Poznámka : Uživatelé mohou generovat bezplatné obrázky pomocí Dalle-mini podle následujících pokynů odkaz .



Jaké je fungování Dalle-mini?

Hlavní myšlenkou Dalle-mini je síla transformátorů, což jsou neuronové sítě. Mohou se naučit dlouhodobé závislosti a složité vzorce v sekvenčních datech, jako je text nebo obrázky.





Transformátory se skládají ze dvou hlavních částí: kodéru a dekodéru. První část vezme vstup (textový popis) a změní jej na skryté vektory. Poté jej dekodér vezme a vygeneruje výstup (obrázek), který je relevantní pro vstup.

Jaký je rozdíl mezi Dalle-mini a DALL-E?

Dalle-mini a DALL-E používají sdílenou architekturu kodéru a dekodéru pro text i obrázky. Mohou kódovat a dekódovat obě modality pomocí stejné sítě. To jim umožňuje naučit se společný latentní prostor, který zachycuje sémantický vztah mezi textem a obrázky. Poté jim umožňuje provádět mezimodální generování, jako je vytváření obrázků z textu nebo naopak.



Jak funguje Dalle-mini?

Při generování obrázku z textového popisu Dalle-mini nejprve tokenizuje text pomocí algoritmu kódování bajtů (BPE), který rozděluje text na jednotky podslov na základě jejich frekvence a společného výskytu:


Pojďme se podrobně zabývat vnitřním fungováním Dalle-mini:

Interní práce Dalle-mini

Předpokládejme, že slovo „ hraní “ může být rozděleno na “ pla ' a ' ying “. Tokeny jsou poté mapovány na číselná ID pomocí slovní zásoby 8192 tokenů. ID jsou vložena do kodéru a vytvoří latentní reprezentaci o velikosti 256 x 64:


Dekodér pak vezme latentní reprezentaci a vygeneruje obrázek o velikosti 256 x 256 pixelů. Dekodér používá autoregresivní proces, což znamená, že generuje každý pixel jeden po druhém, podmíněný předchozími pixely a latentní reprezentací.

Jak vygenerovat obrázek z textového popisu pomocí Dalle-mini?

Chcete-li vygenerovat textový popis z obrázku pomocí Dalle-mini, zadejte text do okna výzvy. Zadejte například „ Obraz náhodných květin “ ve výzvě a stiskněte „ Běh ' knoflík:


Výstup ukazuje, že Dalle-mini vygenerovalo relevantní obrázky podle vstupního textu.

Závěr

Dalle-mini je pozoruhodný model, který demonstruje potenciál transformátorů pro crossmodální generaci. Dokážou vytvořit realistické a rozmanité obrázky z popisů v přirozeném jazyce, stejně jako souvislé a relevantní texty z obrázků. Zvládnou také složité kompozice, jako je kombinace více objektů nebo atributů v jednom obrázku nebo textu. Tento článek podrobně vysvětlil Dalle-mini a jeho fungování.