Kuidas tehisintellekti tätoveeringugeneraatorid töötavad
Tehisintellekti tätoveeringugeneraator on difusioonmudel, mis on peenhäälestatud tätoveeringupiltide põhjal. See loeb sinu prompti, eemaldab müra juhuslikust müraväljalt mitme sammu jooksul ja jõuab originaalse kunstiteoseni, mida kujundavad treeningu käigus õpitud mustrid.
wizard.tattoo meeskond · · 6 min lugemist
Koostatud tehisintellekti abil ja wizard.tattoo toimetuskolleegiumi poolt enne avaldamist üle vaadatud.
Millist mudeliarhhitektuuri tüüpiline tehisintellekti tätoveeringugeneraator kasutab?
Enamik tätoveeringugeneraatoreid kasutab latentset difusioonmudelit, mis on peenhäälestatud tätoveeringukunstiga. Tekstikodeerija muudab sinu prompti vektoriteks, U-Net eemaldab latentkujutiselt müra mitme sammu jooksul ja dekoodider teisendab lõpliku latentse pildi nähtavaks kujunduseks.
Tänapäeval domineeriv arhitektuur on latentne difusioon — sama perekond, mis toetab Stable Diffusioni, SDXL-i, Midjourney viimaste versioonide ja enamiku avatud tätoveeringukohaseid harude aluseid. Sõna "latentne" on võtmetähtsusega: selle asemel et eemaldada müra täispiksli resolutsioonil, töötab mudel kokkusurutud esituses, mis on ligikaudu kuueteistkümnendik tegelikust suurusest — sellepärast lõpetab genereerimine sekundite, mitte minutitega. Kolm komponenti on olulised. Tekstikodeerija (tavaliselt CLIP või T5 variant) kaardistab sinu kirjalikku prompti kõrgmõõtmeliseks vektoriks, mis tabab tähendust, mitte ainult märksõnu. U-Net teeb tegeliku müra eemaldamise töö, olles igal sammul tinglik selle tekstivektoriga — nii et mudelit suunatakse pidevalt "promptile sarnanevate asjade" suunas. Variatsiooniline autoenkodeerija dekoodider laiendab lõpliku latentse pildi tagasi nähtavaks kujutiseks. Tätoveeringukohaselt spetsiifiline osa toimub peenhäälestuse ajal. Avatud veebist õppinud põhimudelit treenitakse lisaks kureeritud tätoveeringukunsti korpusega — flash-lehed, paranenud fotod, joonistused, šabloonid — kuni võrgu kaalud kalduvad tätoveeringute visuaalse grammatika poole: kindlad kontuurid, kontrollitud negatiivne ruum, punktvarjutus, peenjoone ja traditsioonilise konventsioonid. Mõned tooted lisavad stiilipõhiseid LoRA-adapter. Originaalne DDPM-artikkel aadressil <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> on kanooniline viide, kui soovid müra eemaldamise protsessi matemaatikat. Praktiline tulemus sulle on see, et tööriist mõistab juba enne, mida "single needle" või "American traditional" tähendavad. Kui soovid <a href="/blog/best-ai-tattoo-generator">võrrelda praeguseid tehisintellekti tatoveeringutööriistu</a>, on arhitektuur peaaegu alati selle virna mõni variant — erinevused on treeninguandmetes ja inferentsi vaikeväärtustes.
Kuidas tööriist tekstipromti tätoveeringukujunduseks tõlgib?
Sinu prompt tokeniseeritakse, manustatakse vektorisse ja edastatakse U-Netile tingimisena igal müra eemaldamise sammul. Mudel alustab puhtast mürast ja eemaldab iteratiivselt osi, mis ei vasta promptvektorile, jättes maha pildi, mis vastab.
Sõnadest pildi tõlkimine ei ole otsing. Mudel ei otsi andmebaasist tätoveeringuid, mis vastavad sinu promptile — see genereerib pildi, mida pole kunagi varem eksisteerinud, juhituna statistilistest mustritest, mida see treeningu käigus omandas. See erinevus on oluline, sest see selgitab nii tugevused (originaalsus, lõputu variatsioon) kui ka nõrkused (aeg-ajalt anatoomiavigu, prompti kõrvalekalle). Mehhaaniliselt läbib prompt tokeniseerija, mis jagab selle alamõõtüksusteks, seejärel tekstikodeerija, mis toodab semantilist tähendust tabava vektori jada. "Kurg, peenjoon, negatiivne ruum" muutub koordinaatideks ruumis, kus "kurg" asub teiste pikakaelakalade lähedal, "peenjoon" minimaalsete stiilide lähedal ja "negatiivne ruum" tõmbab koosseisude poole tahtliku tühjusega. U-Net saab selle tingimise ja kasutab seda igal müra eemaldamise sammul otsustamiseks, milliseid müramustreid hoida ja milliseid eemaldada. Klassifikaatorivaba juhtimine on hoob, mis kontrollib, kui sõna-sõnalt mudel sind tõlgendab. Madal juhtimine toodab pehmemaid, loomingulisemaid tõlgendusi; kõrge juhtimine nõuab ranget prompti järgimist — mõnikord pildikvaliteedi arvelt. Tätoveerimiseks häälestatud tooted valivad tavaliselt teile keskmise väärtuse. Proovivõtusammu (tavaliselt kakskümmend kuni viiskümmend) vahetus kiiruse vastu viimistlemiseks. Seeme — üksik täisarv — määrab algse müravälja; sama prompt ja sama seeme toodavad sama pildi, mis on see, kuidas iteratsioon muutub deterministlikuks mitte mänguautomaadiks. Kui leiad sulle meeldiva generatsiooni, saad <a href="/tryon">eelvaadata genereeritud tätoveeringut oma nahal</a> või <a href="/stencil">teisendada genereeritud kujunduse šablooniks</a> tätoveerijale viimiseks.
Millist rolli mängib fotosisend nahatundlikus generatsioonis?
Fotosisend võimaldab mudelil olla tinglik sinu tegelikust anatoomiast. Pilt kodeeritakse koos promptiga, nii et generatsioon arvestab kehaosa kaarate, mõõtkava ja paigutusega — selle asemel et toota lame kujundus, mida hiljem nahale sobitada.
Puhas tekst-pildiks genereerimine toodab valgel taustal hõljuva kujunduse. See on hea valiku tegemiseks, kuid ignoreerib ühte kõige tähtsamat piirangut, mis tegelikel tätoveeringutel on: keha, millel see istub. Nahk on kumer, asümmeetriline ja kolmemõõtmeline. Koosseis, mis näeb välja tasakaalustatult nelinurgelise PNG-na, võib vaadata kõveralt, kui see keerdub küünarvarre ümber või järgib rangluu joont. Fotol tinglik genereerimine sulgeb selle lõhe. Taustal kasutab süsteem ühte mitmest tehnikast — ControlNet, IP-Adapter, sügavuse tingimine või img2img madala müra eemaldamise tugevusega — et süstida oma fotost teavet difusiooniprotsessi. Mudel suudab lugeda sinu käe kontuuri, seljaliha määratlust, roidekõhre kallet ja kohandada kujundust vastavalt. Käsivarsi ümber keerdumiseks mõeldud madu genereeritakse juba keerdumas; sinu küünarvarre siseküljele mõeldud teos genereeritakse õiges kuvasuhe. Teine fotosisendi kasutus on virtuaalne proovikandmine: selle asemel et tingida generatsiooni, liidab süsteem valmis kujunduse sinu fotole perspektiivkorrektsiooni, läbipaistvuse sobitamise ja varju käsitlemisega. Nii näed, milline tätoveeringuvälja välja näeb enne broneerimist — ja see on odavaim viis avastada, et idee, mida armastasid ekraanil, ei sobi paigutusesse, mida kujutlesid. Mõlemad töövood muudavad kujundusvestluse "kas mulle meeldib see pilt" küsimusest "kas mulle meeldib see tätoveering minul" küsimuseks, mis on väga erinevad küsimused.
Kus tehisintellekti tätoveeringgenereerimine inimkunstnikest ikka lühemaks jääb?
Tehisintellekt on suurepärane ideede loomisel ja nõrk lõppviimistlusel. See võitleb range sümmeetria, nägude, käte, teksti ja praktilise hinnanguga, kuidas kujundus vananeb, armistub ja väikeses mõõdus loetav on — kõik asjad, mida pädev inimkunstnik teeb refleksiivselt.
Aus vastus on, et tehisintellekt on parem ideeloome partner kui lõpetaja. See on kiirem kui ükski inimene suundade uurimisel, variatsioonide genereerimisel ja selle näitamisel, milline näeb välja sada erinevat versiooni samast ideest. See muudab kõike tätoveeringu kujundamise varajase faasi osas. Kuid lõhe "hea genereeritud pildi" ja "hea tätoveeringu" vahel on reaalne ja ilmub konkreetsetes kohtades. Sümmeetria on esimene. Difusioonimudelid on probabilistlikud — need ei jõusta vasakut silma parema silmaga sobitama, kahte lillvart puhtalt peegeldama või mandala kaheteistkümmet sektorit identseks muutma. Saad lähedal olla õige prompti ja seemnega, kuid faili puhastav inimene on tavaliselt vajalik, kui sümmeetria on teose mõte. Näod, käed ja väike tekst on teine ebaõnnestumisviis samal põhjusel: suure sagedusega detail semantiliselt tihedates piirkondades on just see, kus difusioon kõige sagedamini hallutsineerib. Sügavam piirang on hinnang. Difusioonimudel pole kunagi tätoveeringu paranemist jälginud. See ei tea, et väga õhukesed jooned sõrme küljel hägustuvad kahe aasta jooksul, et valge tint tuhmub päikeses, et tihedalt pakitud kujundus kolmel sentimeetril kaotab kõik oma detailid tindi laotumisele, või et seljaosa peab arvestama, kuidas keha liigub. Need on asjad, mida töötav tätoveerimiskunstnik ütleb sulle koha peal. Kasuta tehisintellekti genereerimiseks, itereerimiseks ja visuaali kinnitamiseks — too seejärel fail inimesele, kes on kulutanud tuhandeid tunde tindi käitumise jälgimisele kehal, ja lase neil teha osa, mida masin ei suuda.
| Generaatoritüüp | Parim sisend | Tüüpiline väljund | Aus piirang |
|---|---|---|---|
| Üldotstarbeline difusioon (SDXL, MJ) | Pikk, üksikasjalik tekstiprompt | Originaalne tätoveeringustiilis kunstiteos | Puudub natiivne šabloon või nahatundlikkus |
| Tätoveerimiseks peenhäälestatud difusioon | Lühike prompt + stiilimärgend | Tätoveerimiskõlblik joonistamine ja varjutamine | Piiratud treenimiskomplekti stiilidega |
| Fotol tinglik (ControlNet/IP-Adapter) | Prompt + kehafoto | Paigutusele kohandatud kujundus | Nõuab kasutatavat referentsfotot |
| Šablooniteisendaja | Valmis kujunduspilt | Puhta mustjoonelise šablooni PNG | Kvaliteet sõltub allikakontrastist |
difusioonmudel — Generatiivne närvivõrk, mis õpib pööratud astmelise mürastamise protsessi. Alustades juhuslikust mürast, ennustab ja eemaldab see iteratiivselt müra — juhituna teksti või pildipromptiga — kuni ilmub sidus pilt.
Põhifaktid
- Alusarhitektuur
- Latentne difusioon tekstikodeerija, U-Net denoiser ja VAE dekooderiga
- Tüüpilised proovivõtusammu
- Kakskümmend kuni viiskümmend müra eemaldamise sammu pildi kohta
- Deterministlikkus
- Sama prompt ja seeme reprodutseerivad täpselt sama pildi
- Foto tingimine
- ControlNet, IP-Adapter või sügavuskaardid sobitavad kujunduse tegelikule anatoomiaga
- Teadaolevad nõrgad kohad
- Range sümmeetria, näod, käed, väike tekst ja pikaajaline vananemishinnang
Loe järgmisena
Testi tätoveeringut enne, kui pühendud: miks see toimib — wizard.tattoo
Odavaim kindlustus tätoveeringu kahetsuse vastu on testida disaini päriselus enne, kui see on püsiv. Miks päriselu test muudab su otsust, kuidas ajutised tätoveeringud toimivad, kuidas kontrollida paigutust ja suurust ning mida oma kunstnikule üle anda.
Kuidas võita tätoveeringueelne ärevus — wizard.tattoo
Tindieelne ärevus on infoprobleem, mitte julgusprobleem. Siin on, kuidas asendada ebakindlus tõenditega — mõista, mis sind tegelikult hirmutab, visualiseeri disain, proovi seda oma kehal ja otsusta enesekindlusest, mitte lootusest.
Kuidas anda AI-le tätoveeringu juhtkäsk: mängukava
Samm-sammuline mängukava AI-tätoveeringugeneraatorite juhtkäskude andmiseks teksti-, foto- ja visandisisendite lõikes — mis töötab, kuidas itereerida ja vead, mis väljundi rikuvad.