AI TATTOO GENERATION

Kā darbojas MI tetovējumu ģeneratori

MI tetovējumu ģenerators ir difūzijas modelis, kas precizēts uz tetovējumu attēliem. Tas nolasa tavas uzvednes, novērš troksni no nejaušā trokšņa lauka daudzos soļos un nonāk pie oriģināla mākslas darba, ko veido apmācības laikā iemācītie modeļi.

wizard.tattoo komanda · · 6 min lasīšanas

Sagatavots ar mākslīgā intelekta palīdzību un pirms publicēšanas pārskatīts wizard.tattoo redakcijas komandā.

Kādu modeļa arhitektūru izmanto tipiskais MI tetovējumu ģenerators?

Lielākā daļa tetovējumu ģeneratoru izmanto latentās difūzijas modeli, kas precizēts uz tetovējumu mākslas darbu pamata. Teksta kodētājs pārveido tavu uzvedni par vektoriem, U-Net novērš troksni no latentā attēla daudzos soļos, un dekodētājs pārvērš galīgo latento attēlu redzamā dizainā.

Šodien dominējošā arhitektūra ir latentā difūzija — tā pati saime, kas ir Stable Diffusion, SDXL, Midjourney jaunāko versiju un lielākās daļas atvērto tetovējumu specifisko zaru pamatā. Vārds "latentais" ir atslēgvārds: tā vietā, lai novērstu troksni pilnas pikseļu izšķirtspējas gadījumā, modelis darbojas saspiestā reprezentācijā, kas ir aptuveni sešpadsmitā daļa no faktiskā izmēra — tāpēc ģenerēšana beidzas sekundēs, nevis minūtēs. Trīs komponenti ir svarīgi. Teksta kodētājs (parasti CLIP vai T5 variants) kartē tavu rakstisko uzvedni augstas dimensijas vektorā, kas uztver nozīmi, nevis tikai atslēgvārdus. U-Net veic faktisko trokšņa novēršanas darbu, katrā solī nosacīts no šī teksta vektora — tāpēc modelis pastāvīgi tiek virzīts uz "lietām, kas izskatās kā uzvedne". Variacionālais autoenkodēra dekodētājs pēc tam paplašina galīgo latento attēlu atpakaļ redzamā attēlā. Tetovēšanai specifiskā daļa notiek precizēšanas laikā. Pamatmodelim, kas redzējis atvērto tīmekli, tiek papildus apmācīts uz kurētu tetovējumu mākslas darbu kopas — zibsnes lapas, sadzijušas fotogrāfijas, līnijdarbi, šabloni — līdz tīkla svari nosveras uz tetovējumu vizuālo gramatiku: pārliecīgi kontūri, kontrolēta negatīvā telpa, punktu ēnojums, smalkās līnijas un tradicionālā konvencijas. Daži produkti pievieno LoRA adapteri stila katrā stilā. Oriģinālais DDPM raksts vietnē <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> ir kanonisks atsauce, ja vēlies matemātiku aiz trokšņa novēršanas procesa. Praktiskais rezultāts tev ir tas, ka rīks jau saprot, ko nozīmē "single needle" vai "American traditional" pirms tu tos ievadīsi. Ja vēlies <a href="/blog/best-ai-tattoo-generator">salīdzināt pašreizējos MI tetovējumu rīkus</a>, arhitektūra gandrīz vienmēr ir kāds šī skursteņa variants — atšķirības ir apmācības datos un secinājumu noklusējumu vērtībās.

Kā rīks pārtulko teksta uzvedni tetovējuma dizainā?

Tava uzvedne tiek tokenizēta, iegulta vektorā un nodota U-Net kā kondicionēšana katrā trokšņa novēršanas solī. Modelis sāk no tīra trokšņa un iteratīvi noņem daļas, kas neatbilst uzvednes vektoram, atstājot aiz sevis attēlu, kas tam atbilst.

Tulkošana no vārdiem uz attēlu nav meklēšana. Modelis nemeklē datu bāzē tetovējumus, kas atbilst tavai uzvednes — tas ģenerē attēlu, kas nekad nav bijis iepriekš, vadīts pēc statistiskiem modeļiem, ko tas uzsūca apmācības laikā. Šī atšķirība ir svarīga, jo tā izskaidro gan stiprās puses (oriģinalitāte, bezgalīga variācija), gan vājās puses (nejaušas anatomijas kļūdas, uzvednes novirze). Mehāniski uzvedne iet caur tokenizatoru, kas to sadala apakšvārdu vienībās, pēc tam caur teksta kodētāju, kas rada vektoru secību, kas uztver semantisko nozīmi. "Dzērve, smalkā līnija, negatīvā telpa" kļūst par koordinātām telpā, kur "dzērve" atrodas blakus citiem garkakla putniem, "smalkā līnija" blakus citiem minimālistiskiem stiliem, un "negatīvā telpa" velk uz kompozīcijām ar apzinātu tukšumu. U-Net saņem šo kondicionēšanu un izmanto to, lai katrā trokšņa novēršanas solī izlemtu, kurus trokšņa modeļus saglabāt un kurus noņemt. Bezklasifera vadīšana ir svira, kas kontrolē, cik burtiski modelis interpretē tevi. Zema vadīšana rada mīkstākas, radošākas interpretācijas; augsta vadīšana liek stingri ievērot uzvedni — dažreiz uz attēla kvalitātes rēķina. Tetovēšanai saskaņoti produkti parasti izvēlas vidējo vērtību tev. Paraugu ņemšanas soļi (parasti divdesmit līdz piecdesmit) apmaina ātrumu pret pilnveidi. Sēkla — viens vesels skaitlis — nosaka sākuma trokšņa lauku; viena un tā pati uzvedne un sēkla rada to pašu attēlu, kas padara iterāciju deterministisku, nevis loteriju. Kad esi atradis tev tīkamu ģenerāciju, vari <a href="/tryon">priekšskatīt ģenerēto tetovējumu uz savas ādas</a> vai <a href="/stencil">pārvērst ģenerēto dizainu par šablonu</a> ņemšanai pie māksliniekam.

Kādu lomu fotoattēla ievade spēlē ar ādu apzinīgā ģenerēšanā?

Fotoattēla ievade ļauj modelim balstīties uz tavu faktisko anatomiju. Attēls tiek kodēts kopā ar uzvedni, tāpēc ģenerēšana ievēro ķermeņa daļas izliekumus, mērogu un novietojumu — tā vietā, lai ražotu plakanu dizainu, kas vēlāk jāpielāgo ādai.

Tīra teksta pārveidošana attēlā rada dizainu, kas peld uz balta fona. Tas ir labi izvēlei, bet ignorē vienu vissvarīgāko ierobežojumu, kas ir īstam tetovējumam: ķermenis, uz kura tas sēž. Āda ir izliekta, asimetriska un trīsdimensionāla. Kompozīcija, kas izskatās līdzsvarota kā kvadrātveida PNG, var šķist skeva, kad tā aptinās ap apakšdelmu vai seko atslēgkaula līnijai. Fotoattēlā nosacītā ģenerēšana slēdz šo plaisu. Aiz ainām sistēma izmanto vienu no vairākām tehnikām — ControlNet, IP-Adapter, dziļuma kondicionēšana vai img2img ar zemu trokšņa novēršanas spēku — lai injicētu informāciju no tavas fotogrāfijas difūzijas procesā. Modelis var nolasīt tavas rokas kontūru, muguras muskuļu definīciju, ribukrāga slīpumu un atbilstoši pielāgot dizainu. Čūska, kas paredzēta aptinties ap tavu bicepsu, tiek ģenerēta jau aptinusies; darbs, kas paredzēts iekšpusē apakšdelmu, tiek ģenerēts pareizā proporcijā. Otrais fotoattēla ievades izmantojums ir virtuāla izmēģinājuma uzvilkšana: tā vietā lai kondicionētu ģenerēšanu, sistēma salīmē gatavu dizainu uz tava fotoattēla ar perspektīvas korekciju, necaurspīdīguma saskaņošanu un ēnu apstrādi. Tā redzat, kā tetovējums izskatīsies pirms rezervēšanas — un tas ir lētākais veids, kā atklāt, ka ideja, ko mīlēji uz ekrāna, nav piemērota iedomātajam novietojumam.

Kur MI tetovējumu ģenerēšana vēl atpaliek no cilvēku māksliniekiem?

MI ir izcils ideju radīšanā un vājš apdares darbā. Tas cīnās ar stingru simetriju, sejām, rokām, tekstu un praktisko spriedumu par to, kā dizains novecosies, rētosies un būs salasāms mazos izmēros — visi tie, ko kompetents cilvēku tetovēšanas mākslinieks dara refleksīvi.

Godīgā atbilde ir tāda, ka MI ir labāks ideju partneris nekā finišētājs. Tas ir ātrāks nekā jebkurš cilvēks virzienu izpētē, variāciju ģenerēšanā un parādīt, kā izskatās simt dažādu vienas idejas versiju. Tas maina visu tetovējuma projektēšanas agrīnajā fāzē. Bet plaisa starp "labu ģenerētu attēlu" un "labu tetovējumu" ir reāla, un tā parādās konkrētos vietās. Simetrija ir pirmā. Difūzijas modeļi ir varbūtēji — tie neizpilda, ka kreisā acs saskan ar labo aci, ka divi ziedu kāti tīri spoguļojas, vai ka mandāla ar divpadsmit sektoriem ir identiski. Tu vari tikt tuvu ar pareizo uzvedni un sēklu, bet cilvēks faila tīrīšanai parasti ir nepieciešams, ja simetrija ir darba mērķis. Sejas, rokas un mazs teksts ir otrs kļūmes veids tā paša iemesla dēļ: augstfrekvences detaļas semantiski blīvos reģionos ir tieši tās, kur difūzija visbiežāk halucinē. Dziļākais ierobežojums ir spriedums. Difūzijas modelis nekad nav novērojis dzīstošu tetovējumu. Tas nezina, ka ļoti plānas līnijas uz pirksta sāna izplūdīs divu gadu laikā, ka baltā tinte izgaist saulē, ka cieši iesaiņots dizains trīs centimetros zaudēs visas detaļas tintes izplatīšanās dēļ, vai ka muguras gabals jāņem vērā, kā ķermenis kustas. Tas ir tas, ko praktizējošais tetovēšanas mākslinieks pateiks tev uz vietas. Izmanto MI ģenerēšanai, atkārtošanai un vizuālā apstiprināšanai — pēc tam atnes failu cilvēkam, kurš pavadījis tūkstošiem stundu, vērojot, kā tinte uzvedas uz ķermeņiem.

Ģeneratora veids pēc ievades modalitātes un izvades kvalitātes
Ģeneratora veidsLabākā ievadeTipiskā izvadeGodīgais ierobežojums
Vispārējas nozīmes difūzija (SDXL, MJ)Gara, detalizēta teksta uzvedneOriģināls tetovējuma stila mākslas darbsNav natīva šablona vai ādas apzinātības
Tetovēšanai precizēta difūzijaĪsa uzvedne + stila birkaTetovējumiem pareizs līnijdarbs un ēnojumsIerobežots ar stiliem apmācību komplektā
Fotoattēlā nosacīts (ControlNet/IP-Adapter)Uzvedne + ķermeņa fotoattēlsNovietojumam pielāgots dizainsNepieciešams izmantojams atsauces fotoattēls
Šablonu pārveidotājsPabeigts dizaina attēlsTīrs melnas līnijas šablons PNGKvalitāte atkarīga no avota kontrasta

difūzijas modelisĢeneratīvs neironu tīkls, kas iemācās apgriezt pakāpenisku trokšņošanas procesu. Sākot no nejaušā trokšņa, tas iteratīvi prognozē un noņem troksni — vadīts pēc teksta vai attēla uzvednes — līdz parādās saskaņots attēls.

Galvenie fakti

Pamata arhitektūra
Latentā difūzija ar teksta kodētāju, U-Net trokšņa novērsēju un VAE dekodētāju
Tipiskie paraugu ņemšanas soļi
Divdesmit līdz piecdesmit trokšņa novēršanas soļi uz attēlu
Determinisms
Viena un tā pati uzvedne un sēkla reproducē precīzi to pašu attēlu
Fotoattēla kondicionēšana
ControlNet, IP-Adapter vai dziļuma kartes pielāgo dizainu reālajai anatomijai
Zināmie vājie punkti
Stingra simetrija, sejas, rokas, mazs teksts un ilgtermiņa novecošanas spriedums

Lasīt tālāk

Rotaļīgi veidi, kā atklāt savu nākamo tetovējumu

Rulete

Griez riteni, ļauj liktenim izlemt

Sapnis

Jūsu zemapziņa glabā dizainu

Pulss

Tas, ko jūtat, ir pelnījis formu

Astrāls

Ierakstīts zvaigznēs, uzzīmēts tintē

Glifi

Senas zīmes no mūsdienu simboliem

Himēra

Negaidīti savienojumi rada labāko tinti

Tintes cīņa

Tinte satiek tinti, pūlis izlemj

Uzmini tinti

Lasi tinti, atklāj domu