AI TATTOO GENERATION

Ako fungujú generátory tetovaní s AI

Generátor tetovaní s umelou inteligenciou je difúzny model doladený na obrázkoch tetovaní. Prečíta váš prompt, odstráni šum z náhodného šumového poľa v mnohých krokoch a vytvorí pôvodnú kresbu tvarovanú vzormi, ktoré sa naučil počas trénovania.

Tím wizard.tattoo · · 5 min čítania

Pripravené s pomocou umelej inteligencie a pred zverejnením skontrolované redakčným tímom wizard.tattoo.

Aká architektúra modelu poháňa typický generátor tetovaní s AI?

Väčšina generátorov tetovaní využíva latentný difúzny model doladený na umení tetovaní. Textový enkodér premení váš prompt na vektory, sieť U-Net odstráni šum z latentného obrazu v niekoľkých krokoch a dekodér prevedie výslednú latentnú reprezentáciu na viditeľný design.

Dominantnou architektúrou je latentná difúzia — rovnaká rodina, na ktorej stoja Stable Diffusion, SDXL, najnovšie verzie Midjourney a väčšina otvorených vetiev špecializovaných na tetovanie. Slovo „latentná” je kľúčové: namiesto odstraňovania šumu pri plnom rozlíšení pixelov model pracuje vo vnútri komprimovanej reprezentácie zhruba šestnásťkrát menšej — preto generovanie trvá sekundy, nie minúty. Dôležité sú tri komponenty. Textový enkodér (zvyčajne variant CLIP alebo T5) mapuje váš prompt do vysokodimenzionálneho vektora zachytávajúceho zmysel, nie len kľúčové slová. Sieť U-Net vykonáva samotnú prácu odstraňovania šumu, podmienenú v každom kroku týmto vektorom — model je tak neustále navádzaný k „veciam, ktoré vyzerajú ako prompt”. Dekodér variačného autoenkodera potom rozbalí výslednú latentnú reprezentáciu na viditeľný obrázok. Časť špecifická pre tetovanie prichádza počas dolaďovania. Základný model, ktorý videl otvorený internet, je ďalej trénovaný na kurátorskom korpuse umenia tetovaní — flash listy, fotografie zahojeného tetovaní, linky, šablóny — kým váhy siete nezačnú smerovať k vizuálnej gramatike tetovaní: sebavedomým obrysom, kontrolovanému negatívnemu priestoru, bodkovacienmu tieňovaniu, konvenciám jemnej línie versus tradičný štýl. Originálna práca DDPM na <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> je kanonickým odkazom pre matematiku procesu odstraňovania šumu.

Ako nástroj preloží textový prompt do návrhu tetovaní?

Váš prompt je tokenizovaný, zakódovaný do vektora a odovzdaný sieti U-Net ako podmieňovanie v každom kroku odstraňovania šumu. Model začína od čistého šumu a iteratívne odstraňuje časti, ktoré nezodpovedajú vektoru promptu, pričom ponecháva obraz, ktorý zodpovedá.

Preklad slov na obrázok nie je vyhľadávanie. Model neprehľadáva databázu tetovaní kvôli zhodam s vaším promptom — generuje obrázok, ktorý nikdy predtým neexistoval, vedený štatistickými vzormi absorbovanými počas trénovania. Toto rozlíšenie je dôležité, pretože vysvetľuje silné stránky (originalita, nekonečná variácia) aj slabiny (príležitostné anatomické chyby, odchýlka od promptu). Mechanicky prompt prechádza tokenizérom, ktorý ho rozkladá na podslová, potom textovým enkodérom, ktorý produkuje sekvenciu vektorov zachytávajúcich sémantický zmysel. „Žeriav, jemná linka, negatívny priestor” sa stáva súradnicami v priestore, kde „žeriav” susedí s inými dlhokrkými vtákmi, „jemná linka” susedí s inými minimalistickými štýlmi a „negatívny priestor” ťahá ku kompozíciám so zámernou prázdnotou. Sieť U-Net prijíma toto podmieňovanie a používa ho na rozhodovanie, v každom kroku odstraňovania šumu, ktoré šumové vzory zachovať a ktoré odstrániť. Guidance bez klasifikátora je páka, ktorá kontroluje, ako doslova model interpretuje váš prompt. Nízky guidance produkuje mäkšie, kreatívnejšie interpretácie; vysoký guidance vynucuje prísne dodržiavanie promptu — niekedy na úkor kvality obrázku. Produkty ladené pre tetovanie si zvyčajne za vás zvolia strednú hodnotu.

Akú úlohu hrá fotografia ako vstup pri generovaní s vedomím pokožky?

Fotografia umožňuje modelu podmieniť sa na vašej skutočnej anatómii. Obraz je zakódovaný spolu s promptom, takže generovanie rešpektuje krivky, mierku a umiestnenie časti tela — namiesto produkcie plochého dizajnu, ktorý musí byť neskôr prispôsobený pokožke.

Čisté generovanie text-to-image produkuje dizajn na bielom pozadí. To je dobré na výber toho, čo chcete, ale ignoruje jediné najdôležitejšie obmedzenie skutočného tetovaní: telo, na ktorom bude sedieť. Pokožka je zakrivená, asymetrická a trojrozmerná. Kompozícia, ktorá vyzerá vyvážene ako štvorcový PNG, môže po ovinutí okolo predlaktia alebo sledovaní línie kľúčnej kosti vyzerať nakrivo. Fotograficky podmienené generovanie túto medzeru premosťuje. Za scénou systém používa jednu z niekoľkých techník — ControlNet, IP-Adapter, podmieňovanie hĺbkou alebo img2img s nízkou silou odstraňovania šumu — na vloženie informácií o vašej fotografii do difúzneho procesu. Model môže prečítať obrys vášho ramena, svalovú definíciu chrbta, sklon rebier a podľa toho prispôsobiť dizajn. Had určený na ovinutie bicepsa je generovaný už ovinutý; kus dimenzovaný na vnútorné predlaktie je generovaný so správnym pomerom strán. Druhé použitie fotografie je virtuálne vyskúšanie: namiesto podmieňovania generovania systém skladá hotový dizajn na vašu fotografiu s korekciou perspektívy, zhodou krytia a spracovaním tieňa. Takto vidíte, ako tetovanie bude vyzerať, skôr než si rezervujete termín.

Kde generovanie tetovaní s AI stále zaostáva za ľudskými umelcami?

AI vyniká pri generovaní nápadov a je slabá pri dokonalom spracovaní. Bojuje s prísnou symetriou, tvárami, rukami, textom a praktickým úsudkom o tom, ako bude dizajn starnúť, jazvíť a čítať sa v malých veľkostiach — všetko veci, s ktorými kompetentný ľudský umelec narába reflexívne.

Úprimná odpoveď je, že AI je lepším partnerom pre brainstorming ako pre dokončovanie práce. Je rýchlejšia ako akýkoľvek človek pri skúmaní smerov, generovaní variácií a ukazovaní, ako sto rôznych pohľadov na rovnaký nápad môže vyzerať. To mení všetko v ranej fáze navrhovania tetovaní. Ale priepasť medzi „dobrým vygenerovaným obrázkom” a „dobrým tetovaním” je reálna a prejavuje sa na konkrétnych miestach. Symetria je prvá. Difúzne modely sú pravdepodobnostné — nevynucujú, aby ľavé oko zodpovedalo pravému, aby dva stonky kvetov sa čisto zrkadlili, alebo aby dvanásť sektorov mandaly bolo identických. Môžete sa priblížiť správnym promptom a seedom, ale človek čistiaci súbor je zvyčajne potrebný, ak symetria je zmyslom diela. Tváre, ruky a malý text sú druhý spôsob zlyhania z rovnakého dôvodu: vysokofrekvenčný detail v sémanticky hustých oblastiach je miestom, kde difúzia najčastejšie halucinuje. Hlbšie obmedzenie je úsudok. Difúzny model nikdy nesledoval, ako sa tetovanie hojí. Nevie, že veľmi tenké linky na boku prsta sa rozmaže do dvoch rokov, že biely atrament bledne na slnku, že tesne zbalený dizajn na troch centimetroch stratí všetok detail rozlievaním atramentu, alebo že kus na chrbte musí zvažovať, ako sa telo hýbe. To sú veci, ktoré vám pracujúci tetovací umelec povie na mieste.

Typ generátora podľa vstupnej modality a kvality výstupu
Typ generátoraNajlepší vstupTypický výstupÚprimné obmedzenie
Všeobecná difúzia (SDXL, MJ)Dlhý, podrobný textový promptPôvodná grafika v štýle tetovaníŽiadna natívna šablóna ani vedomie pokožky
Difúzia doladená pre tetovanieKrátky prompt + tag štýluSprávne linky a tieňovanieObmedzené na štýly z trénovacej sady
Podmienené fotografiou (ControlNet/IP-Adapter)Prompt + fotografia telaDizajn prispôsobený umiestneniuVyžaduje použiteľnú referenčnú fotografiu
Konvertor šablónHotový obraz dizajnuČistý PNG šablóny s čiernymi linkamiKvalita závisí od kontrastu zdroja

difúzny modelGeneratívna neurónová sieť, ktorá sa učí obracať postupný proces pridávania šumu. Počínajúc náhodným šumom iteratívne predpovedá a odstraňuje šum — vedená textovým alebo obrazovým promptom — kým nevznikne koherentný obrázok.

Kľúčové fakty

Základná architektúra
Latentná difúzia s textovým enkodérom, U-Net odstraňovačom šumu a VAE dekodérom
Typické kroky vzorkovania
Dvadsať až päťdesiat krokov odstraňovania šumu na obrázok
Determinizmus
Rovnaký prompt a seed reprodukujú presne rovnaký obrázok
Podmieňovanie fotografiou
ControlNet, IP-Adapter alebo mapy hĺbky prispôsobia dizajn skutočnej anatómii
Známe slabiny
Prísna symetria, tváre, ruky, malý text a úsudok o dlhodobom starnutí

Čítať ďalej

Hravé spôsoby, ako objaviť vaše ďalšie tetovanie

Ruleta

Zatočte kolom, nechajte rozhodnúť osud

Lucid

Vaše podvedomie skrýva dizajn

Pulse

To, čo cítite, si zaslúži tvar

Astral

Napísané v hviezdach, nakreslené atramentom

Glyphs

Starobylé znaky z moderných symbolov

Chimera

Nečakané spojenia tvoria najlepšie tetovanie

Ink Battle

Tetovanie proti tetovaniu, rozhodne publikum

Name That Ink

Prečítajte tetovanie, odhaľte myšlienku