AI TATTOO GENERATION

Kuidas tehisintellekti tätoveeringugeneraatorid töötavad

Tehisintellekti tätoveeringugeneraator on difusioonmudel, mis on peenhäälestatud tätoveeringupiltide põhjal. See loeb sinu prompti, eemaldab müra juhuslikust müraväljalt mitme sammu jooksul ja jõuab originaalse kunstiteoseni, mida kujundavad treeningu käigus õpitud mustrid.

wizard.tattoo meeskond · · 6 min lugemist

Koostatud tehisintellekti abil ja wizard.tattoo toimetuskolleegiumi poolt enne avaldamist üle vaadatud.

Millist mudeliarhhitektuuri tüüpiline tehisintellekti tätoveeringugeneraator kasutab?

Enamik tätoveeringugeneraatoreid kasutab latentset difusioonmudelit, mis on peenhäälestatud tätoveeringukunstiga. Tekstikodeerija muudab sinu prompti vektoriteks, U-Net eemaldab latentkujutiselt müra mitme sammu jooksul ja dekoodider teisendab lõpliku latentse pildi nähtavaks kujunduseks.

Tänapäeval domineeriv arhitektuur on latentne difusioon — sama perekond, mis toetab Stable Diffusioni, SDXL-i, Midjourney viimaste versioonide ja enamiku avatud tätoveeringukohaseid harude aluseid. Sõna "latentne" on võtmetähtsusega: selle asemel et eemaldada müra täispiksli resolutsioonil, töötab mudel kokkusurutud esituses, mis on ligikaudu kuueteistkümnendik tegelikust suurusest — sellepärast lõpetab genereerimine sekundite, mitte minutitega. Kolm komponenti on olulised. Tekstikodeerija (tavaliselt CLIP või T5 variant) kaardistab sinu kirjalikku prompti kõrgmõõtmeliseks vektoriks, mis tabab tähendust, mitte ainult märksõnu. U-Net teeb tegeliku müra eemaldamise töö, olles igal sammul tinglik selle tekstivektoriga — nii et mudelit suunatakse pidevalt "promptile sarnanevate asjade" suunas. Variatsiooniline autoenkodeerija dekoodider laiendab lõpliku latentse pildi tagasi nähtavaks kujutiseks. Tätoveeringukohaselt spetsiifiline osa toimub peenhäälestuse ajal. Avatud veebist õppinud põhimudelit treenitakse lisaks kureeritud tätoveeringukunsti korpusega — flash-lehed, paranenud fotod, joonistused, šabloonid — kuni võrgu kaalud kaldu­vad tätoveeringute visuaalse grammatika poole: kindlad kontuurid, kontrollitud negatiivne ruum, punktvarjutus, peenjoone ja traditsioonilise konventsioonid. Mõned tooted lisavad stiilipõhiseid LoRA-adapter. Originaalne DDPM-artikkel aadressil <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> on kanooniline viide, kui soovid müra eemaldamise protsessi matemaatikat. Praktiline tulemus sulle on see, et tööriist mõistab juba enne, mida "single needle" või "American traditional" tähendavad. Kui soovid <a href="/blog/best-ai-tattoo-generator">võrrelda praeguseid tehisintellekti tatoveeringutööriistu</a>, on arhitektuur peaaegu alati selle virna mõni variant — erinevused on treeninguandmetes ja inferentsi vaikeväärtustes.

Kuidas tööriist tekstipromti tätoveeringukujunduseks tõlgib?

Sinu prompt tokeniseeritakse, manustatakse vektorisse ja edastatakse U-Netile tingimisena igal müra eemaldamise sammul. Mudel alustab puhtast mürast ja eemaldab iteratiivselt osi, mis ei vasta promptvektorile, jättes maha pildi, mis vastab.

Sõnadest pildi tõlkimine ei ole otsing. Mudel ei otsi andmebaasist tätoveeringuid, mis vastavad sinu promptile — see genereerib pildi, mida pole kunagi varem eksisteerinud, juhituna statistilistest mustritest, mida see treeningu käigus omandas. See erinevus on oluline, sest see selgitab nii tugevused (originaalsus, lõputu variatsioon) kui ka nõrkused (aeg-ajalt anatoomiavigu, prompti kõrvalekalle). Mehhaaniliselt läbib prompt tokeniseerija, mis jagab selle alamõõtüksusteks, seejärel tekstikodeerija, mis toodab semantilist tähendust tabava vektori jada. "Kurg, peenjoon, negatiivne ruum" muutub koordinaatideks ruumis, kus "kurg" asub teiste pikakaelakalade lähedal, "peenjoon" minimaalsete stiilide lähedal ja "negatiivne ruum" tõmbab koosseisude poole tahtliku tühjusega. U-Net saab selle tingimise ja kasutab seda igal müra eemaldamise sammul otsustamiseks, milliseid müramustreid hoida ja milliseid eemaldada. Klassifikaatorivaba juhtimine on hoob, mis kontrollib, kui sõna-sõnalt mudel sind tõlgendab. Madal juhtimine toodab pehmemaid, loomingulisemaid tõlgendusi; kõrge juhtimine nõuab ranget prompti järgimist — mõnikord pildikvaliteedi arvelt. Tätoveerimiseks häälestatud tooted valivad tavaliselt teile keskmise väärtuse. Proovivõtusammu (tavaliselt kakskümmend kuni viiskümmend) vahetus kiiruse vastu viimistlemiseks. Seeme — üksik täisarv — määrab algse müravälja; sama prompt ja sama seeme toodavad sama pildi, mis on see, kuidas iteratsioon muutub deterministlikuks mitte mänguautomaadiks. Kui leiad sulle meeldiva generatsiooni, saad <a href="/tryon">eelvaadata genereeritud tätoveeringut oma nahal</a> või <a href="/stencil">teisendada genereeritud kujunduse šablooniks</a> tätoveerijale viimiseks.

Millist rolli mängib fotosisend nahatundlikus generatsioonis?

Fotosisend võimaldab mudelil olla tinglik sinu tegelikust anatoomiast. Pilt kodeeritakse koos promptiga, nii et generatsioon arvestab kehaosa kaarate, mõõtkava ja paigutusega — selle asemel et toota lame kujundus, mida hiljem nahale sobitada.

Puhas tekst-pildiks genereerimine toodab valgel taustal hõljuva kujunduse. See on hea valiku tegemiseks, kuid ignoreerib ühte kõige tähtsamat piirangut, mis tegelikel tätoveeringutel on: keha, millel see istub. Nahk on kumer, asümmeetriline ja kolmemõõtmeline. Koosseis, mis näeb välja tasakaalustatult nelinurgelise PNG-na, võib vaadata kõveralt, kui see keerdub küünarvarre ümber või järgib rangluu joont. Fotol tinglik genereerimine sulgeb selle lõhe. Taustal kasutab süsteem ühte mitmest tehnikast — ControlNet, IP-Adapter, sügavuse tingimine või img2img madala müra eemaldamise tugevusega — et süstida oma fotost teavet difusiooniprotsessi. Mudel suudab lugeda sinu käe kontuuri, seljaliha määratlust, roide­kõhre kallet ja kohandada kujundust vastavalt. Käsivarsi ümber keerdumiseks mõeldud madu genereeritakse juba keerdumas; sinu küünarvarre siseküljele mõeldud teos genereeritakse õiges kuvasuhe. Teine fotosisendi kasutus on virtuaalne proovikandmine: selle asemel et tingida generatsiooni, liidab süsteem valmis kujunduse sinu fotole perspektiivkorrektsiooni, läbipaistvuse sobitamise ja varju käsitlemisega. Nii näed, milline tätoveeringuvälja välja näeb enne broneerimist — ja see on odavaim viis avastada, et idee, mida armastasid ekraanil, ei sobi paigutusesse, mida kujutlesid. Mõlemad töövood muudavad kujundusvestluse "kas mulle meeldib see pilt" küsimusest "kas mulle meeldib see tätoveering minul" küsimuseks, mis on väga erinevad küsimused.

Kus tehisintellekti tätoveeringgenereerimine inimkunstnikest ikka lühemaks jääb?

Tehisintellekt on suurepärane ideede loomisel ja nõrk lõppviimistlusel. See võitleb range sümmeetria, nägude, käte, teksti ja praktilise hinnanguga, kuidas kujundus vananeb, armistub ja väikeses mõõdus loetav on — kõik asjad, mida pädev inimkunstnik teeb refleksiivselt.

Aus vastus on, et tehisintellekt on parem ideeloome partner kui lõpetaja. See on kiirem kui ükski inimene suundade uurimisel, variatsioonide genereerimisel ja selle näitamisel, milline näeb välja sada erinevat versiooni samast ideest. See muudab kõike tätoveeringu kujundamise varajase faasi osas. Kuid lõhe "hea genereeritud pildi" ja "hea tätoveeringu" vahel on reaalne ja ilmub konkreetsetes kohtades. Sümmeetria on esimene. Difusioonimudelid on probabilistlikud — need ei jõusta vasakut silma parema silmaga sobitama, kahte lillvart puhtalt peegeldama või mandala kaheteistkümmet sektorit identseks muutma. Saad lähedal olla õige prompti ja seemnega, kuid faili puhastav inimene on tavaliselt vajalik, kui sümmeetria on teose mõte. Näod, käed ja väike tekst on teine ebaõnnestumisviis samal põhjusel: suure sagedusega detail semantiliselt tihedates piirkondades on just see, kus difusioon kõige sagedamini hallutsineerib. Sügavam piirang on hinnang. Difusioonimudel pole kunagi tätoveeringu paranemist jälginud. See ei tea, et väga õhukesed jooned sõrme küljel hägustuvad kahe aasta jooksul, et valge tint tuhmub päikeses, et tihedalt pakitud kujundus kolmel sentimeetril kaotab kõik oma detailid tindi laotumisele, või et seljaosa peab arvestama, kuidas keha liigub. Need on asjad, mida töötav tätoveerimiskunstnik ütleb sulle koha peal. Kasuta tehisintellekti genereerimiseks, itereerimiseks ja visuaali kinnitamiseks — too seejärel fail inimesele, kes on kulutanud tuhandeid tunde tindi käitumise jälgimisele kehal, ja lase neil teha osa, mida masin ei suuda.

Generaatoritüüp sisendmodaalsuse ja väljundkvaliteedi järgi
GeneraatoritüüpParim sisendTüüpiline väljundAus piirang
Üldotstarbeline difusioon (SDXL, MJ)Pikk, üksikasjalik tekstipromptOriginaalne tätoveeringustiilis kunstiteosPuudub natiivne šabloon või nahatundlikkus
Tätoveerimiseks peenhäälestatud difusioonLühike prompt + stiilimärgendTätoveerimiskõlblik joonistamine ja varjutaminePiiratud treenimiskomplekti stiilidega
Fotol tinglik (ControlNet/IP-Adapter)Prompt + kehafotoPaigutusele kohandatud kujundusNõuab kasutatavat referentsfotot
ŠablooniteisendajaValmis kujunduspiltPuhta mustjoonelise šablooni PNGKvaliteet sõltub allikakontrastist

difusioonmudelGeneratiivne närvivõrk, mis õpib pööratud astmelise mürastamise protsessi. Alustades juhuslikust mürast, ennustab ja eemaldab see iteratiivselt müra — juhituna teksti või pildipromptiga — kuni ilmub sidus pilt.

Põhifaktid

Alusarhitektuur
Latentne difusioon tekstikodeerija, U-Net denoiser ja VAE dekooderiga
Tüüpilised proovivõtusammu
Kakskümmend kuni viiskümmend müra eemaldamise sammu pildi kohta
Deterministlikkus
Sama prompt ja seeme reprodutseerivad täpselt sama pildi
Foto tingimine
ControlNet, IP-Adapter või sügavuskaardid sobitavad kujunduse tegelikule anatoomiaga
Teadaolevad nõrgad kohad
Range sümmeetria, näod, käed, väike tekst ja pikaajaline vananemishinnang

Loe järgmisena

Lõbusad viisid oma järgmise tätoveeringu avastamiseks

Roulette

Keera ratast, lase saatuse otsustada

Lucid

Sinu alateadvus hoiab disaini

Pulse

See, mida tunned, väärib vormi

Astral

Kirjutatud tähtedesse, joonistatud tindiga

Glyphs

Iidsed märgid moodsatest sümbolitest

Chimera

Ebatõenäolised liidud teevad parimat tinti

Ink Battle

Tint kohtub tindiga, rahvas otsustab

Name That Ink

Loe tinti, paljasta meel