Kaip veikia AI tatuiruočių generatoriai
AI tatuiruočių generatorius yra difuzijos modelis, specialiai apmokytas tatuiruočių vaizduose. Jis perskaito jūsų užklausą, denoizuoja atsitiktinį triukšmo lauką per daugelį žingsnių ir gauna originalų meną, atspindintį per treniruotę išmoktas struktūras.
wizard.tattoo komanda · · 6 min skaitymo
Parengta naudojant dirbtinį intelektą ir prieš publikuojant peržiūrėta wizard.tattoo redakcijos komandos.
Kokia modelio architektūra maitina tipinį AI tatuiruočių generatorių?
Dauguma tatuiruočių generatorių naudoja latentnės difuzijos modelį, papildomai apmokytą tatuiruočių meno duomenimis. Teksto koduoklis verčia jūsų užklausą į vektorius, U-Net palaipsniui pašalina triukšmą iš latentinio vaizdo, o dekoduoklis konvertuoja galutinį latentą į matomą dizainą.
Dominuojanti šiandieninė architektūra yra latentnė difuzija — ta pati šeima, kuri grindžia Stable Diffusion, SDXL, naujausias Midjourney versijas ir daugumą atvirojo kodo tatuiruočių šakų. Esminis žodis yra "latentinis": vietoje denoizavimo viso pikselių raiškos lygyje, modelis dirba suglaudintoje reprezentacijoje, maždaug šešiolika kartų mažesnėje — todėl generavimas baigiasi per sekundes, o ne per minutes. Svarbu trys komponentai. Teksto koduoklis (dažniausiai CLIP arba T5 variantas) atvaizduoja jūsų rašytinę užklausą į daugiamatį vektorių, užfiksuojantį reikšmę, o ne vien raktažodžius. U-Net atlieka tikrąjį denoizavimo darbą, kiekviename žingsnyje kondicionuojamas to teksto vektoriaus — taigi modelis nuolat stumiamas link dalykų, atrodančių kaip užklausa. Variacional automatinis koduotuvas (VAE) dekoduoklis tada išplečia galutinį latentą atgal į matomą vaizdą. Tatuiruotėms būdinga dalis vyksta papildomo mokymo metu. Bazinis modelis, matęs atvirąjį internetą, toliau mokomas kuruotame tatuiruočių meno rinkinyje — flaš lapeliuose, gydomų tatuiruočių nuotraukose, linijiniame mene, šablonuose — kol tinklo svoriai pasikeičia tatuiruočių vizualinės gramatikos kryptimi: ryžtingos kontūrinės linijos, kontroliuojama neigiama erdvė, taško šešėliavimas, plonos linijos ir tradicinio stiliaus konvencijos. Kai kurie produktai naudoja LoRA (mažus specializuotus adapterius) kiekvienam stiliui. Originalus DDPM straipsnis <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> yra kanoninis šaltinis, jei norite denoizavimo proceso matematikos. Praktinis rezultatas jums: įrankis jau supranta, ką reiškia "viena adata" ar "amerikiečių tradicinis", dar prieš jums juos įrašant. Jei norite <a href="/blog/best-ai-tattoo-generator">palyginti dabartinius AI tatuiruočių įrankius</a>, architektūra beveik visada yra koks nors šio rietuvės variantas — skirtumai glūdi mokymo duomenyse ir numatytųjų nustatymų pasirinkime.
Kaip įrankis verčia teksto užklausą į tatuiruotės dizainą?
Jūsų užklausa tokenizuojama, įterpiama į vektorių ir kiekviename denoizavimo žingsnyje tiekiama U-Net kaip kondicionavimas. Modelis pradeda nuo gryno triukšmo ir iteratyviai pašalina dalis, neatitinkančias užklausos vektoriaus, palikdamas vaizdą, kuris ją atitinka.
Vertimas iš žodžių į paveikslą nėra paieška. Modelis ne ieško duomenų bazėje tatuiruočių, atitinkančių jūsų užklausą — jis generuoja vaizdą, kuris anksčiau neegzistavo, vadovaujamas statistinių modelių, įsisavintų per treniruotę. Šis skirtumas svarbus, nes paaiškina tiek stiprybes (originalumas, begalinė variacija), tiek silpnybes (kartais anatomijos klaidos, užklausos nuokrypis). Mechaniškai užklausa eina per tokenizatorių, skaidantį ją į žodžių fragmentus, po to per teksto koduoklį, kuris gamina vektorių seką, užfiksuojančią semantinę reikšmę. "Gervė, plona linija, neigiama erdvė" virsta koordinatėmis erdvėje, kur "gervė" yra šalia kitų ilgakaklio paukščio, "plona linija" — šalia kitų minimalistinių stilių, o "neigiama erdvė" traukia link kompozicijų su tyčine tuštuma. U-Net gauna šį kondicionavimą ir naudoja jį sprendimui, kiekviename denoizavimo žingsnyje, kuriuos triukšmo modelius išlaikyti, o kuriuos pašalinti. Klasifikatoriu laisvasis valdymas yra sverta, kontroliuojanti, kaip pažodžiui modelis interpretuoja jus. Žemas valdymas gamina minkštesnes, kūrybiškesnes interpretacijas; aukštas valdymas verčia griežtai laikytis užklausos — kartais vaizdo kokybės kaina. Tatuiruotėms derinami produktai paprastai pasirenka vidutinę vertę jūsų vietoje. Mėginimo žingsniai (paprastai nuo dvidešimties iki penkiasdešimties) maino greitį ir kokybę. Sėkla — vienas sveikasis skaičius — lemia pradinį triukšmo lauką; ta pati užklausa ir ta pati sėkla visada duoda tą patį vaizdą, todėl iteracijos tampa deterministinės, o ne atsitiktinės. Radę patinkantį generavimą, galite <a href="/tryon">peržiūrėti sugeneruotą tatuiruotę ant savo odos</a> arba <a href="/stencil">konvertuoti sugeneruotą dizainą į šabloną</a> ir nunešti meistrei.
Kokį vaidmenį nuotraukos įvestis atlieka odos sąmoningame generavime?
Nuotraukos įvestis leidžia modeliui kondicionuotis ant jūsų tikrosios anatomijos. Vaizdas užkoduojamas kartu su užklausa, todėl generavimas gerbia kūno dalies kreives, mastelį ir išdėstymą — vietoje plokščio dizaino, kurį vėliau reikia pritaikyti odai.
Grynas teksto į vaizdą generavimas gamina dizainą, plūduriuojantį ant balto fono. Tai puiku renkantis, ko norite, tačiau neatsižvelgia į vienintelį svarbiausią apribojimą, kurį turi tikra tatuiruotė: kūną, ant kurio ji bus. Oda yra išlenkta, asimetriška ir trimatė. Kompozicija, atrodanti subalansuota kaip kvadratinis PNG, gali pasirodyti kreiva apvijus dilbį ar einant raktikaulio linija. Nuotrauka sąlygojamas generavimas uždaro tą spragą. Užkulisiuose sistema naudoja vieną iš kelių metodų — ControlNet, IP-Adapter, gylio kondicionavimą ar img2img su žemu denoizavimo stiprumu — norėdama įnešti informaciją apie jūsų nuotrauką į difuzijos procesą. Modelis gali nuskaityti rankos kontūrą, nugaros raumenų apibrėžimą, šonkaulių lanko nuolydį ir atitinkamai pakoreguoti dizainą. Gyvatė, skirta apsivyti aplink bicepsą, yra generuojama jau apsivijusi; gabalas, skirtas vidiniam dilbiui, yra generuojamas tinkamo kraštinio santykio. Antrasis nuotraukos įvesties panaudojimas yra virtualus apsiprobiavimas (virtual try-on): vietoje generavimo kondicionavimo sistema sudeda baigtą dizainą ant jūsų nuotraukos su perspektyvos korekcija, skaidrumo derinimu ir šešėlių apdorojimu. Taip matote, kaip tatuiruotė atrodys prieš užsiregistruojant — ir tai pigiausias būdas sužinoti, kad idėja, kurią mėgote ekrane, netinka jūsų įsivaizduotai vietai. Bet kuri darbo eiga keičia dizaino pokalbį iš to, ar jums patinka paveikslėlis, į tai, ar jums patinka tatuiruotė ant jūsų — tai labai skirtingi klausimai.
Kur AI tatuiruočių generavimas vis dar atsilieka nuo žmogaus menininkų?
AI puikiai generuoja idėjas, tačiau silpnas baigimo darbuose. Jis sunkiai susidoroja su griežta simetrija, veidais, rankomis, tekstu ir praktiniu sprendimu, kaip dizainas senės, randos ir bus matomas mažais dydžiais — viskas, ką kompetentingas žmogus meistras daro refleksyviai.
Sąžiningas atsakymas: AI yra geresnis brainstorming partneris nei baigiamosios veiklos partneris. Jis greitesnis už bet kurį žmogų tyrinėjant kryptis, generuojant variantus ir rodant, kaip atrodo šimtas skirtingų tos pačios idėjos versijų. Tai keičia viską ankstyvoje tatuiruotės kūrimo fazėje. Tačiau atotrūkis tarp gero sugeneruoto vaizdo ir geros tatuiruotės yra realus, ir jis pasireiškia konkrečiose vietose. Simetrija yra pirmoji problema. Difuzijos modeliai yra tikimybiniai — jie neužtikrina, kad kairė akis atitinka dešinę, kad dvi gėlių stiebai veidrodiškai atsispindi, ar kad mandalo dvylika sektorių yra identiški. Galima priartėti su tinkama užklausa ir sėkla, tačiau žmogus, tvarkantis failą, paprastai reikalingas, jei simetrija yra kūrinio esmė. Veidai, rankos ir mažas tekstas yra antrasis nesėkmės režimas dėl tos pačios priežasties: aukšto dažnio detalė semantiškai tankiuose regionuose yra vieta, kur difuzija dažniausiai haliucinuoja. Gilesnis apribojimas yra sprendimas. Difuzijos modelis niekada nematė, kaip tatuiruotė gyja. Jis nežino, kad labai plonos linijos piršto šone išsileis per dvejus metus, kad balta dažai blunka saulėje, kad tankiai supakuotas dizainas trimis centimetrais praras visą detalizaciją dėl rašalo plitimo, ar kad nugaro gabalas turi atsižvelgti į kūno judėjimą. Tai dalykai, kuriuos dirbantis tatuiruočių meistras jums pasakys iš karto. Naudokite AI generuoti, kartoti ir patvirtinti vizualinį sprendimą — tada atnešite failą žmogui, kuris praleido tūkstančius valandų stebėdamas, kaip rašalas elgiasi ant kūnų, ir leiskite jam atlikti dalį, kurios mašina negali.
| Generatoriaus tipas | Geriausia įvestis | Tipinė išvestis | Sąžiningas apribojimas |
|---|---|---|---|
| Bendros paskirties difuzija (SDXL, MJ) | Ilga, detali teksto užklausa | Originalus tatuiruočių stiliaus menas | Nėra natyvaus šablono ar odos sąmoningumo |
| Tatuiruotėms derintas difuzijos modelis | Trumpa užklausa ir stiliaus žyma | Teisingos tatuiruočių linijos ir šešėliavimas | Apribotas treniruotės rinkinio stiliais |
| Nuotrauka sąlygojamas (ControlNet/IP-Adapter) | Užklausa ir kūno nuotrauka | Dizainas pritaikytas išdėstymui | Reikalinga tinkama nuorodų nuotrauka |
| Šablono konverteris | Baigto dizaino vaizdas | Švarus juodos linijos šablonas PNG | Kokybė priklauso nuo šaltinio kontrasto |
difuzijos modelis — Generatyvinis neuroninis tinklas, išmokęs atbuline tvarka atlikti žingsnis po žingsnio triukšmo pridėjimo procesą. Pradedant nuo atsitiktinio triukšmo, jis iteratyviai prognozuoja ir pašalina triukšmą — vadovaujamas teksto ar vaizdo užklausos — kol atsiranda nuoseklus vaizdas.
Pagrindiniai faktai
- Pagrindinė architektūra
- Latentnė difuzija su teksto koduokliu, U-Net denoizatoriumi ir VAE dekoduokliu
- Tipiniai mėginimo žingsniai
- Nuo dvidešimties iki penkiasdešimties denoizavimo žingsnių vienam vaizdui
- Deterministiškumas
- Ta pati užklausa ir sėkla visada atkuria tą patį vaizdą
- Nuotraukos kondicionavimas
- ControlNet, IP-Adapter arba gylio žemėlapiai pritaiko dizainą prie tikrosios anatomijos
- Žinomos silpnosios vietos
- Griežta simetrija, veidai, rankos, mažas tekstas ir ilgalaikio senėjimo sprendimas
Skaityti toliau
Išbandykite tatuiruotę prieš apsisprendžiant: kodėl tai veikia — wizard.tattoo
Pigiausias draudimas nuo tatuiruotės gailesčio — išbandyti dizainą realiame gyvenime prieš jam tampant nuolatiniu. Kodėl realaus pasaulio testas keičia jūsų sprendimą, kaip veikia laikinos tatuiruotės, kaip patikrinti vietą ir dydį ir ką perduoti meistrui.
Kaip įveikti nerimą prieš tatuiruotę — wizard.tattoo
Nerimas prieš tatuiruotę yra informacijos, o ne drąsos problema. Štai kaip netikrumą pakeisti įrodymais — suprasti, kas iš tikrųjų jus baugina, vizualizuoti dizainą, prisimatuoti jį ant kūno ir spręsti iš tikrumo, o ne iš vilties.
Kaip rašyti užklausą AI tatuiruotėms: praktinis žinynas
Žingsnis po žingsnio žinynas, kaip rašyti užklausas AI tatuiruočių generatoriams per tekstą, nuotrauką ir eskizą — kas veikia, kaip iteruoti ir klaidos, kurios gadina rezultatą.