AI TATTOO GENERATION

როგორ მუშაობს AI ტატუ გენერატორები

AI ტატუ გენერატორი არის დიფუზიური მოდელი, რომელიც მორგებულია ტატუს გამოსახულებებზე. იგი კითხულობს თქვენს მოთხოვნას, ბევრ ნაბიჯად ათავისუფლებს შემთხვევით ხმაურის ველს და ქმნის ორიგინალურ ნამუშევარს, რომელიც ფორმირებულია სწავლების პროცესში ათვისებული ნიმუშებით.

wizard.tattoo-ს გუნდი · · 6 წთ წასაკითხი

შედგენილია ხელოვნური ინტელექტის დახმარებით და გადახედილია wizard.tattoo-ს სარედაქციო გუნდის მიერ გამოქვეყნებამდე.

რა მოდელური არქიტექტურა მუშაობს ტიპური AI ტატუ გენერატორის უკან?

ტატუ გენერატორების უმეტესობა იყენებს ლატენტური დიფუზიის მოდელს, რომელიც მორგებულია ტატუს ხელოვნებაზე. ტექსტის ენკოდერი თქვენს მოთხოვნას ვექტორებად გარდაქმნის, U-Net-ი რამდენიმე ნაბიჯში ლატენტურ გამოსახულებას ხმაურისგან ათავისუფლებს, ხოლო დეკოდერი საბოლოო ლატენტს ხილულ დიზაინად გარდაქმნის.

დომინანტური არქიტექტურა დღეს არის ლატენტური დიფუზია — იმავე ოჯახის წარმომადგენელი, რომელიც Stable Diffusion-ს, SDXL-ს, Midjourney-ის უახლეს გამოშვებებს და ტატუზე ორიენტირებული ფორკების უმეტესობას ემყარება. «ლატენტური» არის საკვანძო სიტყვა: სრული პიქსელური გარჩევადობის ნაცვლად, მოდელი მუშაობს შეკუმშულ წარმოდგენაში, რომელიც დაახლოებით თექვსმეტჯერ მცირეა, ამიტომ გენერაცია სეკუნდებში სრულდება და არა წუთებში. სამი კომპონენტია მნიშვნელოვანი. ტექსტის ენკოდერი (ჩვეულებრივ CLIP ან T5 ვარიანტი) თქვენს წერილობით მოთხოვნას მაღალგანზომილებიან ვექტორად გარდაქმნის, რომელიც მნიშვნელობას, და არა მხოლოდ საკვანძო სიტყვებს, ასახავს. U-Net ასრულებს ხმაურისგან გათავისუფლების ძირითად სამუშაოს, ყოველ ნაბიჯზე ამ ტექსტური ვექტორით კონდიციონირებული — ამიტომ მოდელი მუდმივად «მოთხოვნის მსგავსი» ნიმუშებისკენ ირეცხება. ვარიაციული ავტოენკოდერის დეკოდერი შემდეგ საბოლოო ლატენტს ხილულ გამოსახულებად გასაზღვრავს. ტატუსთვის სპეციფიკური ნაწილი ხდება წვრილ მორგებისას. ბაზისური მოდელი, რომელმაც ინტერნეტი ნახა, შემდგომ ვარჯიშდება ტატუს ხელოვნების შერჩეულ კორპუსზე — ფლეშ ფურცლები, განკურნებული ფოტოები, ხაზობრივი ნამუშევარი, სტენსილები — სანამ ქსელის წონები ტატუს ვიზუალური გრამატიკისკენ არ დაიხრება: მყარი კონტურები, კონტროლირებადი ნეგატიური სივრცე, წერტილოვანი ჩრდილები, ფაინ-ლაინ და ტრადიციული სტილის კონვენციები. ზოგი პროდუქტი ამატებს LoRA-ებს (მცირე სპეციალიზებულ ადაპტერებს) სტილის მიხედვით. ორიგინალური DDPM სტატია <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a>-ზე კანონიკური ცნობარია, თუ გსურთ ხმაურისგან გათავისუფლების პროცესის მათემატიკა. პრაქტიკული შედეგი თქვენთვის არის ის, რომ ინსტრუმენტი უკვე ესმის, რას ნიშნავს «single needle» ან «American traditional» სანამ ოდესმე ჩაწერთ. თუ გსურთ <a href="/blog/best-ai-tattoo-generator">შეადაროთ AI ტატუ ინსტრუმენტები</a>, არქიტექტურა თითქმის ყოველთვის ამ სტეკის ვარიანტია — განსხვავება სასწავლო მონაცემებსა და გამოყვანის ნაგულისხმევ პარამეტრებშია.

როგორ თარგმნის ინსტრუმენტი ტექსტურ მოთხოვნას ტატუს დიზაინად?

თქვენი მოთხოვნა ტოკენიზდება, ვექტორად ჩაიდება და U-Net-ს ყოველ ხმაურისგან გათავისუფლების ნაბიჯზე კონდიციონირებით ეწოდება. მოდელი სუფთა ხმაურიდან იწყებს და იტერაციულად ხსნის ნაწილებს, რომლებიც მოთხოვნის ვექტორს არ შეესაბამება, ტოვებს გამოსახულებას, რომელიც შეესაბამება.

სიტყვებიდან სურათზე გადასვლა არ არის ძიება. მოდელი არ ეძებს ტატუების მონაცემთა ბაზაში თქვენი მოთხოვნის შესაბამის ნივთებს — ის ქმნის გამოსახულებას, რომელიც არასოდეს არსებობდა, სწავლების პროცესში ათვისებული სტატისტიკური ნიმუშებით წარმართული. ეს განსხვავება მნიშვნელოვანია, რადგან ხსნის როგორც ძლიერ მხარეებს (ორიგინალობა, უსასრულო ვარიაცია), ასევე სუსტ მხარეებს (პერიოდული ანატომიური ხარვეზები, მოთხოვნის გადახრა). მექანიკურად, მოთხოვნა გადის ტოკენიზატორში, რომელიც მას ქვეს-სიტყვებად ყოფს, შემდეგ ტექსტის ენკოდერში, რომელიც ქმნის სემანტიკური მნიშვნელობის ვექტორების თანმიმდევრობას. «ამწე, ფაინ-ლაინ, ნეგატიური სივრცე» ხდება კოორდინატები სივრცეში, სადაც «ამწე» გრძელყელა ფრინველებთან ახლოს ზის, «ფაინ-ლაინ» მინიმალისტურ სტილებთან ახლოს ზის, და «ნეგატიური სივრცე» განზრახ სიცარიელის კომპოზიციებისკენ ეწევა. U-Net იღებს ამ კონდიციონირებას და ყოველ ხმაურისგან გათავისუფლების ნაბიჯზე ამ კონდიციონირების გამოყენებით წყვეტს, ხმაურის რომელი ნიმუშები შეინახოს და რომლები მოხსნას. კლასიფიკატორ-თავისუფალი წარმართვა არის ბერკეტი, რომელიც აკონტროლებს, რამდენად პირდაპირ ინტერპრეტირებს მოდელი თქვენ. დაბალი წარმართვა ქმნის უფრო რბილ, კრეატიულ ინტერპრეტაციებს; მაღალი წარმართვა აიძულებს მოთხოვნის მკაცრ დაცვას — ზოგჯერ გამოსახულების ხარისხის ხარჯზე. ტატუზე მორგებული პროდუქტები ჩვეულებრივ შუა მნიშვნელობას ირჩევენ. სემპლინგის ნაბიჯები (ჩვეულებრივ ოციდან ორმოცდაათამდე) სიჩქარეს სიზუსტის სანაცვლოდ ვაჭრობს. მარცვალი — ერთი მთელი რიცხვი — განსაზღვრავს საწყის ხმაურის ველს; იგივე მოთხოვნა და იგივე მარცვალი ქმნის იგივე გამოსახულებას, რაც იტერაციას ლოტოს ნაცვლად დეტერმინისტულ პროცესად აქცევს. მას შემდეგ, რაც მოიძიეთ მოსწონებული გენერაცია, შეგიძლიათ <a href="/tryon">გადახედოთ გენერირებულ ტატუს თქვენს კანზე</a> ან <a href="/stencil">გადააქციოთ გენერირებული დიზაინი სტენსილად</a> ხელოვანთან წასაღებად.

რა როლს ასრულებს ფოტო ინფუტი კანის-ცნობიერ გენერაციაში?

ფოტო ინფუტი საშუალებას აძლევს მოდელს, დააკონდიციონიროს თქვენი ფაქტობრივი ანატომია. გამოსახულება კოდირდება მოთხოვნასთან ერთად, ამიტომ გენერაცია პატივს სცემს სხეულის ნაწილის მოხვევებს, მასშტაბს და განლაგებას — ნაცვლად იმისა, რომ ქმნას ბრტყელი დიზაინი, რომელიც შემდეგ კანზე მოზრდილობით მოგიწიოს.

სუფთა ტექსტი-სურათად გენერაცია ქმნის დიზაინს, რომელიც თეთრ ფონზე «ტივტივებს». ეს კარგია არჩევისთვის, მაგრამ უგულებელყოფს ყველაზე მნიშვნელოვან შეზღუდვას, რომელიც ნამდვილ ტატუს გააჩნია: სხეულს, რომელზეც ზის. კანი მოხრილია, ასიმეტრიული და სამგანზომილებიანი. კომპოზიცია, რომელიც კვადრატულ PNG-ად დაბალანსებული გამოიყურება, შეიძლება ირიბად ჩანდეს, როდესაც მაჯის ირგვლივ ახვევს ან კეისრის კბილის ხაზის მიყოლებით მიდის. ფოტოთი კონდიციონირებული გენერაცია ამ უფსკრულს ხურავს. კულისებს მიღმა სისტემა იყენებს ერთ-ერთ რამდენიმე ტექნიკას — ControlNet, IP-Adapter, სიღრმის კონდიციონირება ან img2img დაბალი ხმაურისგან გათავისუფლების სიძლიერით — თქვენი ფოტოდან ინფორმაციის დიფუზიის პროცესში ჩასასმელად. მოდელს შეუძლია წაიკითხოს თქვენი მკლავის კონტური, ზურგის კუნთების განსაზღვრება, გვერდის ფეხსაცმელის ღრმა, და შეასწოროს დიზაინი შესაბამისად. გველი, რომელიც თქვენი ორპირის ირგვლივ უნდა ახვეოდეს, ჩამოყალიბებულია ახვევის გათვალისწინებით; ნამუშევარი, შიდა მაჯისთვის განკუთვნილი, ჩამოყალიბებულია სწორი ასპექტის თანაფარდობით. ფოტო ინფუტის მეორე გამოყენება არის ვირტუალური ცდა: გენერაციის კონდიციონირების ნაცვლად, სისტემა კომბინირებს მზა დიზაინს თქვენს ფოტოზე პერსპექტივის კორექციით, გამჭვირვალობის შესატყვისობით და ჩრდილების დამუშავებით. სწორედ ასე ხედავთ, როგორი გამოიყურება ტატუ ჯავშნის დაჯავშნამდე — და ეს ყველაზე იაფი გზაა იმის გასარკვევად, რომ ეკრანზე სასიამოვნო იდეა გამოგონილ განლაგებისთვის არასწორია. ნებისმიერი სამუშაო ნაკადი დიზაინის საუბარს «მომწონს ეს სურათი»-დან «მომწონს ეს ტატუ ჩემზე»-მდე გარდაქმნის, რაც ძალიან განსხვავებული კითხვებია.

სად ვერ აღწევს AI ტატუ გენერაცია ადამიანი ხელოვანების დონეს?

AI შესანიშნავია იდეების გენერაციაში და სუსტია დამუშავებაში. ის ვერ ართმევს თავს მკაცრ სიმეტრიას, სახეებს, ხელებს, ტექსტს და პრაქტიკულ განსჯას, თუ როგორ დაბერდება, ინაწოლება და წაიკითხება დიზაინი მცირე ზომებში — ეს ყველაფერი კომპეტენტური ადამიანი ხელოვანის ავტომატური ქმედებებია.

პატიოსანი პასუხი ის არის, რომ AI უკეთესი იდეების მოაზროვნე პარტნიორია, ვიდრე დამამთავრებელი. ის უფრო სწრაფია, ვიდრე ნებისმიერი ადამიანი მიმართულებების შესაყვანად, ვარიაციების გენერაციისა და იმის ჩვენებისთვის, როგორ გამოიყურება ერთი იდეის ასი განსხვავებული ვერსია. ეს ყველაფერს ცვლის ტატუს დიზაინის ადრეულ ფაზაში. მაგრამ უფსკრული «კარგ გენერირებულ გამოსახულებასა» და «კარგ ტატუს» შორის რეალურია და კონკრეტულ ადგილებში ვლინდება. სიმეტრია პირველია. დიფუზიური მოდელები ალბათობითია — ისინი არ ამოწმებენ, ემთხვევა თუ არა მარცხენა თვალი მარჯვენა თვალს, სუფთად ასახავს ყვავილების ღეროებს, ან მანდალის თორმეტი სექტორი ერთნაირია. სწორი მოთხოვნით და მარცვლით შეგიძლიათ მიუახლოვდეთ, მაგრამ ადამიანი, რომელიც ფაილს ასუფთავებს, ჩვეულებრივ აუცილებელია, თუ სიმეტრია ნამუშევრის მიზანია. სახეები, ხელები და პატარა ტექსტი ერთი და იგივე მიზეზით მეორე ჩაშლის რეჟიმია: მაღალი სიხშირის დეტალები სემანტიკურად მკვრივ რეგიონებში არის ის სადაც დიფუზია ყველაზე ხშირად ჰალუცინაციებს ქმნის. ღრმა შეზღუდვა არის განსჯა. დიფუზიურმა მოდელმა არასოდეს უყურა ტატუს განკურნებას. ის არ იცის, რომ თითის გვერდზე ძალიან თხელი ხაზები ორ წელიწადში გაიბინდება, რომ თეთრი მელნი მზეში ქრება, რომ სამ სანტიმეტრზე მჭიდროდ შეკუმშული დიზაინი მელნის გავრცელებით ყველა დეტალს დაკარგავს, ან რომ ზურგის ნამუშევარმა სხეულის მოძრაობა უნდა გაითვალისწინოს. ეს ის ნივთებია, რომლებსაც სამუშაო ტატუ ხელოვანი ადგილზე გეტყვით. გამოიყენეთ AI გენერაციისთვის, გამეორებისა და ვიზუალის ვალიდაციისთვის — შემდეგ ფაილი მიუტანეთ ადამიანს, რომელმაც ათასობით საათი გაატარა კანზე მელნის ქცევის დაკვირვებაში, და მიეცით სშესაძლებლობა, გააკეთოს ის ნაწილი, რომელს მანქანა ვერ შეძლებს.

გენერატორის ტიპი შეყვანის მოდალობისა და გამომავლის ხარისხის მიხედვით
გენერატორის ტიპისაუკეთესო შეყვანატიპური გამომავალიპატიოსანი შეზღუდვა
ზოგადი დიფუზია (SDXL, MJ)გრძელი, დეტალური ტექსტური მოთხოვნაორიგინალური ტატუ-სტილის ნამუშევარისტენსილის ან კანის ცნობიერება არ არის
ტატუზე მორგებული დიფუზიამოკლე მოთხოვნა + სტილის ტეგიტატუ-სწორი ხაზობრივი ნამუშევარი და ჩრდილისასწავლო ნაკრების სტილებით შეზღუდულია
ფოტოთი კონდიციონირებული (ControlNet/IP-Adapter)მოთხოვნა + სხეულის ფოტოგანლაგებაზე მორგებული დიზაინიგამოყენებადი საცნობარო ფოტო სჭირდება
სტენსილის კონვერტერიმზა დიზაინის გამოსახულებასუფთა შავი ხაზი სტენსილ PNGხარისხი წყაროს კონტრასტზეა დამოკიდებული

დიფუზიური მოდელიგენერაციული ნეირონული ქსელი, რომელიც სწავლობს ნაბიჯ-ნაბიჯ ხმაურის დამატების პროცესის შებრუნებას. შემთხვევითი ხმაურიდან დაწყებული, იგი იტერაციულად წინასწარმეტყველებს და ხსნის ხმაურს — ტექსტური ან გამოსახულების მოთხოვნით წარმართული — სანამ კოჰერენტული გამოსახულება არ გამოჩნდება.

მთავარი ფაქტები

საფუძვლის არქიტექტურა
ლატენტური დიფუზია ტექსტის ენკოდერით, U-Net ხმაურმხსნელით და VAE დეკოდერით
ტიპური სემპლინგის ნაბიჯები
ოციდან ორმოცდაათამდე ხმაურისგან გათავისუფლების ნაბიჯი გამოსახულებაზე
დეტერმინიზმი
იგივე მოთხოვნა და მარცვალი ქმნის იგივე გამოსახულებას ზუსტად
ფოტო კონდიციონირება
ControlNet, IP-Adapter, ან სიღრმის რუქები დიზაინს ნამდვილ ანატომიაზე არგებენ
ცნობილი სუსტი წერტილები
მკაცრი სიმეტრია, სახეები, ხელები, პატარა ტექსტი და გრძელვადიანი დაბერების განსჯა

შემდეგ წაიკითხეთ

სათამაშო გზები შემდეგი ტატუს აღმოსაჩენად

რულეტი

დაატრიალე ბორბალი, ბედს მიეცი გადაწყვეტა

ლუსიდი

შენი ქვეცნობიერი ინახავს დიზაინს

პულსი

რასაც გრძნობ, იმსახურებს ფორმას

ასტრალი

ვარსკვლავებში დაწერილი, მელნით დახატული

გლიფები

უძველესი ნიშნები თანამედროვე სიმბოლოებიდან

ქიმერა

მოულოდნელი კავშირები საუკეთესო მელანს ქმნის

მელნის ბრძოლა

მელანი მელანს ეჯახება, ხალხი წყვეტს

გამოიცანი მელანი

წაიკითხე მელანი, გამოავლინე აზრი