Jinsi jenereta za tattoo za AI zinavyofanya kazi
Jenereta ya tattoo ya AI ni mfano wa usambazaji (diffusion model) ulioundwa maalum kwa sanaa ya tattoo. Inasoma ombi lako, inaondoa kelele kutoka kwenye sehemu ya kelele nasibu kwa hatua nyingi, na kutoa kazi ya sanaa ya asili iliyoundwa na mifumo iliyojifunza wakati wa mafunzo.
Timu ya wizard.tattoo · · dakika 8 kusoma
Imeandikwa kwa msaada wa AI na kupitiwa na timu ya wahariri wa wizard.tattoo kabla ya kuchapishwa.
Ni usanifu gani wa mfano unaotumia jenereta ya kawaida ya tattoo ya AI?
Jenereta nyingi za tattoo zinatumia mfano wa usambazaji wa latent ulioundwa kwa sanaa ya tattoo. Kienkodisha cha maandishi kinabadilisha ombi lako kuwa vektori, U-Net inaondoa kelele kutoka kwenye picha ya latent kwa hatua kadhaa, na kidekodisha kinabadilisha latent ya mwisho kuwa muundo unaoonekana.
Usanifu mkuu leo ni usambazaji wa latent — familia ile ile inayosaidia Stable Diffusion, SDXL, matoleo ya hivi karibuni ya Midjourney, na viunga vingi maalum vya tattoo. Neno 'latent' ndilo muhimu: badala ya kuondoa kelele kwa azimio kamili la pikseli, mfano unafanya kazi ndani ya uwakilishi uliofupishwa ambao ni karibu sehemu moja ya kumi na sita ya ukubwa, ndiyo maana kizazi kinamaliza kwa sekunde badala ya dakika. Vipande vitatu ni muhimu. Kienkodisha cha maandishi (kawaida toleo la CLIP au T5) kinabadilisha ombi lako lililoandikwa kuwa vektori ya vipimo vingi inayoshikilia maana, si tu maneno. U-Net inafanya kazi halisi ya kuondoa kelele, ikiwa imewekwa masharti kila hatua na vektori hiyo ya maandishi — ili mfano usukumwe daima kuelekea 'vitu vinavyoendana na ombi'. Kidekodisha cha autoencoder cha variational kisha kinapanua latent ya mwisho kurudi kwenye picha inayoonekana. Sehemu maalum ya tattoo hutokea wakati wa kuboresha. Mfano wa msingi ambao umeona wavuti wazi hufunzwa zaidi kwenye mkusanyiko uliochaguliwa wa sanaa ya tattoo — karatasi za flash, picha zilizopona, kazi ya mstari, vielelezo — hadi uzito wa mtandao upendeze sarufi ya kuona ya tattoo: mipaka imara, nafasi hasi inayodhibitiwa, vivuli vya nukta, mifumo ya mistari mirefu dhidi ya tatanisho la jadi. Bidhaa zingine zinaongeza LoRAs (virekebishi vidogo vya utaalamu) kwa kila mtindo. Karatasi ya asili ya DDPM kwenye <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> ni rejeleo kuu ikiwa unataka hisabati nyuma ya mchakato wa kuondoa kelele. Matokeo ya vitendo kwako ni kwamba zana tayari inaelewa maana ya 'sindano moja' au 'jadi ya Kiamerika' kabla hujaandika maneno hayo. Ikiwa unataka kulinganisha zana za sasa za tattoo za AI, usanifu karibu kila wakati ni toleo fulani la muundo huu — tofauti ziko katika data ya mafunzo na mipangilio ya kawaida ya inference.
Jinsi gani zana inatafsiri ombi la maandishi kuwa muundo wa tattoo?
Ombi lako linawekwa tokeni, linabadilishwa kuwa vektori, na kulishwa kwa U-Net kama hali kwa kila hatua ya kuondoa kelele. Mfano unaanza kutoka kelele safi na kuondoa kwa kuendelea sehemu ambazo haziendani na vektori ya ombi, ukiacha picha inayofanya hivyo.
Tafsiri kutoka maneno hadi picha si urejeshaji. Mfano hauitafuti hifadhidata ya tattoo kwa vitu vinavyolingana na ombi lako — unazalisha picha ambayo haijawahi kuwepo kabla, ukiongozwa na mifumo ya takwimu iliyoabsorb wakati wa mafunzo. Tofauti hiyo ni muhimu kwa sababu inaeleza nguvu (uhalisi, tofauti isiyo na kikomo) na udhaifu (kasoro za anatomia mara kwa mara, mabadiliko ya ombi). Kimitambo, ombi linapita kwenye tokenizer inayolipasua kuwa vitengo vidogo vya maneno, kisha kupitia kienkodisha cha maandishi, ambacho hutoa mfululizo wa vektori zinazoshikilia maana ya kisemantiki. 'Korongo, mistari mirefu, nafasi hasi' inakuwa kuratibu katika nafasi ambapo 'korongo' inakaa karibu na ndege wengine wenye shingo ndefu, 'mistari mirefu' inakaa karibu na mitindo mingine ya minimalist, na 'nafasi hasi' inavuta kuelekea muundo wenye utupu wa makusudi. U-Net inapokea hali hii na kuitumia kuamua, kwa kila hatua ya kuondoa kelele, ni mifumo gani ya kelele kubaki na ipi kuondoa. Mwongozo usio na mwainishaji ni kipini kinachosimamia jinsi mfano unavyokufasiri. Mwongozo wa chini hutoa tafsiri laini, za ubunifu zaidi; mwongozo wa juu unalazimisha kufuata ombi kwa ukamilifu — wakati mwingine kwa gharama ya ubora wa picha. Bidhaa zilizoundwa kwa tattoo kawaida huchagua thamani ya kati kwako. Hatua za sampuli (kawaida ishirini hadi hamsini) zinabadilishana kasi na usahihi. Mbegu — nambari moja kamili — inabainisha sehemu ya kuanza ya kelele; ombi moja na mbegu moja hutoa picha ile ile, hivi ndivyo iterasiya inavyokuwa ya uhakika badala ya mchezo wa nasibu. Ukisha kupata kizazi unachopenda, unaweza kuangalia tattoo iliyozalishwa kwenye ngozi yako au kubadilisha muundo uliotengenezwa kuwa kielelezo cha kumchukua msanii wako.
Ni jukumu gani linachochezwa na pembejeo ya picha katika uzalishaji unaojua ngozi?
Pembejeo ya picha inaruhusu mfano kuweka masharti kwenye anatomia yako halisi. Picha inakodishwa pamoja na ombi, ili uzalishaji ualike mzingo, kiwango, na uwekaji wa sehemu ya mwili — badala ya kutoa muundo bapa unaohitajika kuunganishwa kwenye ngozi baadaye.
Uzalishaji wa maandishi hadi picha safi hutoa muundo unaoelea kwenye mandharinyuma nyeupe. Hiyo ni sawa kwa kuchagua unachotaka, lakini inakosa kizuizi kimoja muhimu zaidi ambacho tattoo halisi ina: mwili ambao inakaa juu yake. Ngozi ina mzingo, isiyosawazika, na ya vipimo vitatu. Muundo unaoonekana sawazishwa kama PNG ya mraba unaweza kusomeka ulioinama unapozunguka mkono au kufuata mstari wa bega. Uzalishaji uliowekwa masharti na picha unafunga pengo hilo. Nyuma ya skrini mfumo unatumia moja ya mbinu kadhaa — ControlNet, IP-Adapter, uwekaji masharti wa kina, au img2img na nguvu ya chini ya kuondoa kelele — ili kuingiza habari kuhusu picha yako katika mchakato wa usambazaji. Mfano unaweza kusoma muhtasari wa mkono wako, ufafanuzi wa misuli ya mgongo wako, mtelemko wa mbavu zako, na kurekebisha muundo ipasavyo. Nyoka iliyokusudiwa kuzunguka kisomo chako inazalishwa ikiwa inazunguka tayari; kipande kilichopimwa kwa mkono wako wa ndani kinazalishwa kwa uwiano sahihi wa upana. Utumiaji wa pili wa pembejeo ya picha ni majaribio ya mtandaoni: badala ya kuweka masharti uzalishaji, mfumo unaunganisha muundo uliokamilika kwenye picha yako na urekebishaji wa mtazamo, ulinganiaji wa uwazi, na ushughulikiaji wa kivuli. Hivi ndivyo unavyoona jinsi tattoo itakavyoonekana kabla ya kukaa — na ndiyo njia ya bei nafuu zaidi ya kugundua kwamba wazo ulilopenda kwenye skrini halifai kwa uwekaji uliofikiria. Mtiririko wowote wa kazi unabadilisha mazungumzo ya muundo kutoka 'napenda picha hii' hadi 'napenda tattoo hii kwangu,' ambayo ni maswali tofauti kabisa.
Wapi uzalishaji wa tattoo wa AI bado unashindwa dhidi ya wasanii wa kibinadamu?
AI ni bora katika kuunda mawazo na dhaifu katika kazi ya umaliziaji. Inashindwa na usawaziko mkali, nyuso, mikono, maandishi, na uamuzi wa vitendo kuhusu jinsi muundo utakavyozeeka, kupona majeraha, na kusomeka kwa vipimo vidogo — mambo yote ambayo msanii wa kibinadamu mahiri hushughulikia kwa asili.
Jibu la kweli ni kwamba AI ni mshirika bora wa kufikiria kuliko maliziaji. Ni wa haraka kuliko mtu yeyote katika kuchunguza mwelekeo, kuzalisha tofauti, na kukuonyesha jinsi mawazo mia moja tofauti ya wazo moja unavyoonekana. Hiyo inabadilisha kila kitu kuhusu awamu ya mapema ya kubuni tattoo. Lakini pengo kati ya 'picha nzuri iliyozalishwa' na 'tattoo nzuri' ni halisi, na inaonekana katika maeneo maalum. Usawaziko ni wa kwanza. Mifano ya usambazaji ni ya uwezekano — hawalazimishi jicho la kushoto kulingana na jicho la kulia, kwamba mashina mawili ya maua yanakirimu vizuri, au kwamba sekta kumi na mbili za mandala ni sawa. Unaweza kukaribia na ombi na mbegu sahihi, lakini mtu anayesafisha faili kawaida anahitajika usawaziko ukiwa sehemu ya kipande. Nyuso, mikono, na maandishi madogo ni hali ya pili ya kushindwa kwa sababu ile ile: maelezo ya mzunguko wa juu katika maeneo yenye msongamano wa kisemantiki ndiyo usambazaji mara nyingi unaohisi mambo yasiyokuwepo. Kizuizi cha kina ni uamuzi. Mfano wa usambazaji haujawahi kuona tattoo ikipona. Hujui kwamba mistari mirefu sana kando ya kidole itapoteza umbo ndani ya miaka miwili, kwamba wino mweupe unafifia juani, kwamba muundo uliojaa sana kwa sentimita tatu utapoteza maelezo yake yote kwa usambazaji wa wino, au kwamba kipande cha mgongo kinahitaji kuzingatia jinsi mwili unavyohamia. Hizo ndizo mambo ambayo msanii wa tattoo anayefanya kazi atakuambia papo hapo. Tumia AI kuzalisha, kurudia, na kuthibitisha taswira — kisha leta faili kwa mtu ambaye amewekeza maelfu ya masaa kuangalia wino ukiwa juu ya miili, na mruhusu kufanya sehemu ambayo mashine haiwezi.
| Aina ya jenereta | Pembejeo bora | Matokeo ya kawaida | Kikwazo cha kweli |
|---|---|---|---|
| Usambazaji wa matumizi ya jumla (SDXL, MJ) | Ombi refu la maandishi lenye maelezo | Kazi ya sanaa ya asili ya mtindo wa tattoo | Hakuna ufahamu wa asili wa kielelezo au ngozi |
| Usambazaji ulioundwa kwa tattoo | Ombi fupi + lebo ya mtindo | Kazi ya mstari na kivuli sahihi cha tattoo | Imezuiliwa kwa mitindo katika seti ya mafunzo |
| Yenye masharti ya picha (ControlNet/IP-Adapter) | Ombi + picha ya mwili | Muundo ulioundwa kwa uwekaji | Inahitaji picha nzuri ya rejeleo |
| Kibadilishaji cha kielelezo | Picha ya muundo uliokamilika | Kielelezo safi cha mstari mweusi PNG | Ubora unategemea tofauti ya chanzo |
mfano wa usambazaji — Mtandao wa neva wa uzalishaji ambao unajifunza kubatilisha mchakato wa kelele hatua kwa hatua. Ukianza kutoka kelele nasibu, unatabiri na kuondoa kelele kwa njia ya marudio — ukiongozwa na maandishi au ombi la picha — hadi picha inayolingana itoke.
Ukweli muhimu
- Usanifu wa msingi
- Usambazaji wa latent wenye kienkodisha cha maandishi, kiondoaji kelele cha U-Net, na kidekodisha cha VAE
- Hatua za kawaida za sampuli
- Hatua ishirini hadi hamsini za kuondoa kelele kwa kila picha
- Uhakika
- Ombi moja na mbegu moja hutoa picha ile ile kwa usahihi
- Uwekaji masharti wa picha
- ControlNet, IP-Adapter, au ramani za kina zinabadilisha muundo kwa anatomia halisi
- Maeneo yanayojulikana kuwa dhaifu
- Usawaziko mkali, nyuso, mikono, maandishi madogo, na uamuzi wa kuzeeka kwa muda mrefu
Soma inayofuata
Jaribu Tatoo Kabla ya Kujitolea: Kwa Nini Inafanya Kazi — wizard.tattoo
Bima rahisi zaidi dhidi ya majuto ya tatoo ni kujaribu muundo katika maisha halisi kabla haujawa wa kudumu. Kwa nini jaribio la ulimwengu halisi linabadilisha uamuzi wako, jinsi tatoo za muda zinavyofanya kazi, jinsi ya kukagua mahali na ukubwa, na nini cha kumkabidhi msanii wako.
Jinsi ya Kushinda Wasiwasi Kabla ya Tatoo — wizard.tattoo
Wasiwasi kabla ya tatoo ni tatizo la habari, si tatizo la ujasiri. Hivi ndivyo unavyobadilisha kutokuwa na uhakika kwa ushahidi — elewa kinachokutisha kweli, onyesha muundo, ujaribu kwenye mwili wako, na amua kutokana na ujasiri badala ya matumaini.
Jinsi ya Kuandikia AI Prompt ya Tattoo: Mwongozo wa Vitendo
Mwongozo wa hatua kwa hatua wa kuandikia jenereta za AI za tattoo katika pembejeo za maandishi, picha, na michoro — kinachofanya kazi, jinsi ya kurudia, na makosa yanayoharibu matokeo.