AI TATTOO GENERATION

Kako rade AI generatori tetovaža

AI generator tetovaža je difuzijski model fino podešen na slikama tetovaža. Čita vaš upit, razšumljuje nasumično polje šuma kroz mnoge korake i dolazi do originalnog rada oblikovanog uzorcima koje je naučio za vrijeme treninga.

Tim wizard.tattoo · · 6 min čitanja

Napisano uz pomoć umjetne inteligencije i uredničku reviziju tima wizard.tattoo prije objave.

Koja arhitektura modela pokreće tipični AI generator tetovaža?

Većina generatora tetovaža koristi latentni difuzijski model fino podešen na umjetnosti tetovaža. Tekstualni enkoder pretvara vaš upit u vektore, mreža U-Net razšumljuje latentnu sliku u nekoliko koraka, a dekoder pretvara konačnu latentnu reprezentaciju u vidljivi dizajn.

Dominantna arhitektura je latentna difuzija — ista obitelj koja stoji iza Stable Diffusion, SDXL, najnovijih izdanja Midjourney i većine otvorenih račvanja specijaliziranih za tetovaže. Riječ „latentna” je ključna: umjesto razšumljivanja na punoj pikselnoj rezoluciji, model radi unutar komprimirane reprezentacije otprilike šesnaest puta manje — zato generiranje traje sekunde, a ne minute. Tri su komponente važne. Tekstualni enkoder (obično CLIP ili T5 varijanta) mapira vaš upit u visokodimenzionalni vektor koji hvata značenje, ne samo ključne riječi. Mreža U-Net obavlja stvarni posao razšumljivanja, uvjetovana u svakom koraku tim vektorom — model je dakle stalno navođen prema „stvarima koje izgledaju kao upit”. Dekoder varijacijskog autoenkodera zatim proširuje konačnu latentnu reprezentaciju u vidljivu sliku. Dio specifičan za tetovaže dolazi za vrijeme fino podešavanja. Bazni model koji je vidio otvoreni web dodatno se trenira na brižno izabranom korpusu umetničkih tetovaža — flash listovima, fotografijama zatrpanih tetovaža, crtama, predlošcima — dok se težine mreže ne nagnu prema vizualnoj gramatici tetovaža: sigurnim obrisima, kontroliranom negativnom prostoru, točkastom sjencanju, konvencijama fine linije nasuprot tradicionalnom. Izvorni rad DDPM na <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> kanonska je referenca za matematiku procesa razšumljivanja.

Kako alat prevodi tekstualni upit u dizajn tetovaže?

Vaš upit se tokenizira, ugrađuje u vektor i predaje mreži U-Net kao uvjetovanje u svakom koraku razšumljivanja. Model počinje od čistog šuma i iterativno uklanja dijelove koji ne odgovaraju vektoru upita, ostavljajući sliku koja odgovara.

Prijevod riječi u sliku nije pretraživanje. Model ne pretražuje bazu podataka tetovaža tražeći podudaranja s vašim upitom — generira sliku koja nikada prije nije postojala, vođena statističkim uzorcima koje je apsorbirao za vrijeme treninga. Ta je razlika važna jer objašnjava i prednosti (originalnost, beskonačna varijacija) i slabosti (povremene anatomske pogreške, skretanje od upita). Mehanički upit prolazi kroz tokenizator koji ga razlaže na podjedinice, zatim kroz tekstualni enkoder koji proizvodi niz vektora koji hvataju semantičko značenje. „Ždral, fina linija, negativni prostor” postaje koordinatama u prostoru gdje „ždral” sjedi blizu ostalih dugih vratu, „fina linija” blizu minimalističkih stilova, a „negativni prostor” vuče prema kompozicijama s namjernom prazninom. Mreža U-Net prima ovo uvjetovanje i koristi ga za odlučivanje, u svakom koraku razšumljivanja, koje uzorce šuma zadržati, a koje ukloniti. Vođenje bez klasifikatora poluga je koja kontrolira koliko doslovno model tumači vaš upit. Nisko vođenje daje mekše, kreativnije interpretacije; visoko vođenje nameće strogo pridržavanje upita — ponekad na štetu kvalitete slike. Proizvodi podešeni za tetovaže obično biraju srednju vrijednost za vas.

Kakvu ulogu igra fotografija kao ulazni podatak u generiranju svjesnom kože?

Fotografija omogućuje modelu da se uvjetuje na vašoj stvarnoj anatomiji. Slika se kodira zajedno s upitom, pa generiranje poštuje krivulje, mjerilo i postavljanje dijela tijela — umjesto stvaranja ravnog dizajna koji se naknadno mora prilagoditi koži.

Čisto generiranje tekst-u-sliku daje dizajn na bijeloj podlozi. To je dobro za odabir onoga što želite, ali zanemaruje jedno najvažnije ograničenje pravog tetoviranja: tijelo na kojemu će sjediti. Koža je zakrivljena, asimetrična i trodimenzionalna. Kompozicija koja izgleda uravnoteženo kao kvadratni PNG može izgledati iskrivljeno kad se ovije oko podlaktice ili prati liniju ključne kosti. Fotografski uvjetovano generiranje premošćuje taj jaz. Iza kulisa sustav koristi jednu od nekoliko tehnika — ControlNet, IP-Adapter, uvjetovanje dubinom ili img2img s niskom snagom razšumljivanja — kako bi ubrizgao informacije o vašoj fotografiji u difuzijski proces. Model može pročitati obris vaše ruke, mišićnu definiciju leđa, nagib rebara i u skladu s tim prilagoditi dizajn. Zmija namijenjena omatanju bicepsa generira se već omotana; komad dimenzioniran za unutarnju podlakticu generira se u pravom omjeru stranica. Druga upotreba fotografije je virtualna proba: umjesto uvjetovanjem generiranja, sustav sastavlja gotovi dizajn na vašu fotografiju s korekcijom perspektive, usklađivanjem neprozirnosti i obradom sjena. Tako vidite kako će tetovaža izgledati prije nego što rezervirate termin.

Gdje AI generiranje tetovaža još uvijek zaostaje za ljudskim umjetnicima?

AI je izvrsna u ideaciji i slaba u završnoj obradi. Muči se sa strogom simetrijom, licima, rukama, tekstom i praktičnom procjenom toga kako će dizajn starjeti, kaljivati i čitati se u malim mjerilima — sve stvari s kojima kompetentni ljudski umjetnik postupa refleksivno.

Pošteni odgovor je da je AI bolji partner za brainstorming nego za dovršavanje rada. Brža je od bilo kojeg čovjeka u istraživanju smjerova, generiranju varijacija i prikazivanju kako sto različitih pristupa istoj ideji može izgledati. To mijenja sve u ranoj fazi dizajniranja tetovaže. Ali jaz između „dobre generirane slike” i „dobre tetovaže” je stvaran i pojavljuje se na specifičnim mjestima. Simetrija je prva. Difuzijski modeli su probabilistički — ne nameću da lijevo oko odgovara desnom, da se dvije cvatne stabljike čisto ogledaju, ili da je dvanaest sektora mandale identično. Možete se primaknuti uz pravi upit i sjeme, ali čovjek koji čisti datoteku je obično nužan ako je simetrija poanta rada. Lica, ruke i mali tekst su drugi način kvara iz istog razloga: visokofrekventni detalj u semantički gustim regijama je mjesto gdje difuzija najčešće halucinira. Dublje ograničenje je prosudba. Difuzijski model nikada nije promatrao kako se tetovaža zacjeljuje. Ne zna da će se jako tanke linije na boku prsta zamutiti u dvije godine, da bijela tinta blijedi na suncu, da će gusto upakiran dizajn na tri centimetra izgubiti sav detalj zbog razmazivanja tinte, ili da komad na leđima mora uzeti u obzir kako se tijelo kreće. To su stvari koje će vam radni tattoo umjetnik reći odmah.

Vrsta generatora prema ulaznoj modaliteti i kvaliteti izlaza
Vrsta generatoraNajbolji unosTipični izlazPošteno ograničenje
Opća difuzija (SDXL, MJ)Dugački, detaljni tekstualni upitOriginalna grafika u stilu tetovažeNema nativnog predloška niti svjesnosti kože
Difuzija fino podešena za tetovažeKratki upit + oznaka stilaIspravne linije i sjencanjeOgraničeno na stilove iz skupa za trening
Uvjetovano fotografijom (ControlNet/IP-Adapter)Upit + fotografija tijelaDizajn prilagođen postavljanjuZahtijeva upotrebljivu referentnu fotografiju
Konverter predložakaGotova slika dizajnaČisti PNG predloška s crnim linijamaKvaliteta ovisi o kontrastu izvora

difuzijski modelGenerativna neuralna mreža koja uči obrtati postupni proces dodavanja šuma. Počevši od nasumičnog šuma, iterativno predviđa i uklanja šum — vođena tekstualnim ili slikovnim upitom — dok ne nastane koherentna slika.

Ključne činjenice

Osnovna arhitektura
Latentna difuzija s tekstualnim enkoderom, U-Net razšumljivačem i VAE dekoderom
Tipični koraci uzorkovanja
Dvadeset do pedeset koraka razšumljivanja po slici
Determinizam
Isti upit i sjeme uvijek reproduciraju isti izlaz
Uvjetovanje fotografijom
ControlNet, IP-Adapter ili karte dubine prilagođavaju dizajn stvarnoj anatomiji
Poznate slabe točke
Stroga simetrija, lica, ruke, mali tekst i procjena dugoročnog starenja

Pročitajte sljedeće

Kreativni načini za otkrivanje vaše sljedeće tetovaže

Roulette

Zavrtite kotač, neka sudbina odluči

Lucid

Vaša podsvijest krije dizajn

Pulse

Ono što osjećate zaslužuje oblik

Astral

Zapisano u zvijezdama, nacrtano tintom

Glyphs

Drevni znakovi iz modernih simbola

Chimera

Neočekivani spojevi stvaraju najfiniju tintu

Ink Battle

Tinta protiv tinte, publika odlučuje

Name That Ink

Pročitajte tintu, otkrijte um