AI TATTOO GENERATION

AI สร้างลายสักทำงานอย่างไร

AI สร้างลายสักคือโมเดล Diffusion ที่ถูก Fine-tune ด้วยภาพลายสัก โมเดลอ่านคำสั่งของคุณ ลบ Noise ออกจากสนามสัญญาณสุ่มในหลายขั้นตอน แล้วสร้างผลงานต้นฉบับตามรูปแบบที่เรียนรู้จากการฝึกซ้อม

ทีม wizard.tattoo · · อ่าน 3 นาที

ร่างขึ้นด้วยความช่วยเหลือของ AI และตรวจทานโดยทีมบรรณาธิการของ wizard.tattoo ก่อนเผยแพร่

AI สร้างลายสักทั่วไปใช้สถาปัตยกรรมโมเดลแบบไหน?

AI สร้างลายสักส่วนใหญ่ใช้ Latent Diffusion Model ที่ถูก Fine-tune บนงานศิลปะลายสัก Text Encoder แปลงคำสั่งเป็นเวกเตอร์ U-Net ทำการ Denoise ภาพ Latent หลายขั้นตอน และ Decoder แปลง Latent สุดท้ายเป็นการออกแบบที่มองเห็นได้

สถาปัตยกรรมหลักในปัจจุบันคือ Latent Diffusion Model ซึ่งเป็นตระกูลเดียวกันกับที่รองรับ Stable Diffusion, SDXL, การเปิดตัว Midjourney รุ่นล่าสุด และ Fork ลายสักโอเพนซอร์สส่วนใหญ่ คำว่า "Latent" คือคำสำคัญ แทนที่จะทำ Denoise ที่ความละเอียดพิกเซลเต็ม โมเดลทำงานภายในการแทนค่าที่ถูกบีบอัดให้มีขนาดประมาณหนึ่งในสิบหกของขนาดจริง นั่นคือเหตุผลที่การสร้างเสร็จในไม่กี่วินาทีแทนที่จะเป็นนาที มีสามองค์ประกอบสำคัญ Text Encoder (โดยทั่วไปเป็น CLIP หรือ T5 Variant) แมปคำสั่งที่เขียนไว้เป็นเวกเตอร์หลายมิติที่ดักจับความหมายมากกว่าแค่คำสำคัญ U-Net ทำงาน Denoise จริง โดยถูกกำหนดเงื่อนไขในทุกขั้นตอนด้วยเวกเตอร์ข้อความนั้น ดังนั้นโมเดลจึงถูกผลักดันสู่ "สิ่งที่ดูเหมือนคำสั่ง" ตลอดเวลา จากนั้น Variational Autoencoder Decoder ขยาย Latent สุดท้ายกลับเป็นภาพที่มองเห็นได้ ส่วนเฉพาะสำหรับลายสักเกิดขึ้นระหว่าง Fine-tuning โมเดลพื้นฐานที่เห็นเว็บแบบเปิดจะถูกฝึกเพิ่มเติมบน Corpus ที่คัดสรรของงานศิลปะลายสัก เช่น Flash Sheet รูปถ่ายที่หาย Line Work และ Stencil จนกระทั่ง Weight ของเครือข่ายเอียงไปสู่ไวยากรณ์ภาพของลายสัก ได้แก่ เส้นขอบที่มั่นใจ พื้นที่ว่างที่ควบคุม Dot Shading และแบบแผนของ Fine-Line เทียบกับแบบดั้งเดิม บางผลิตภัณฑ์วาง LoRA (อะแดปเตอร์เฉพาะขนาดเล็ก) ต่อ Style หากต้องการคณิตศาสตร์เบื้องหลังกระบวนการ Denoise บทความ DDPM ดั้งเดิมที่ <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> คือการอ้างอิงตามหลักถ้าคุณต้องการ ผลลัพธ์ที่เป็นรูปธรรมสำหรับคุณคือเครื่องมือเข้าใจว่า "Single Needle" หรือ "American Traditional" หมายความว่าอะไรก่อนที่คุณจะพิมพ์ หากต้องการ<a href="/blog/best-ai-tattoo-generator">เปรียบเทียบเครื่องมือ AI ลายสักปัจจุบัน</a> สถาปัตยกรรมมักเป็น Variant ของ Stack นี้เสมอ ความแตกต่างอยู่ที่ข้อมูลการฝึกและค่าเริ่มต้นของ Inference

เครื่องมือแปลงคำสั่งข้อความเป็นการออกแบบลายสักอย่างไร?

คำสั่งของคุณจะถูก Tokenize ฝังใน Vector และถูกป้อนให้ U-Net เป็น Conditioning ในทุกขั้นตอนการ Denoise โมเดลเริ่มจาก Noise บริสุทธิ์และค่อยๆ กำจัดส่วนที่ไม่ตรงกับ Prompt Vector เหลือไว้แต่ภาพที่ตรงกัน

การแปลงจากคำเป็นภาพไม่ใช่การค้นหา โมเดลไม่ได้ค้นหาในฐานข้อมูลลายสักสำหรับสิ่งที่ตรงกับคำสั่งของคุณ แต่กำลังสร้างภาพที่ไม่เคยมีอยู่มาก่อน โดยนำทางด้วยรูปแบบทางสถิติที่ดูดซับระหว่างการฝึก ความแตกต่างนี้สำคัญเพราะอธิบายทั้งจุดแข็ง (ความเป็นต้นฉบับ การเปลี่ยนแปลงไม่สิ้นสุด) และจุดอ่อน (ปัญหากายวิภาคที่เกิดขึ้นบางครั้ง Prompt Drift) ทางกลไก คำสั่งผ่าน Tokenizer ที่แบ่งเป็นหน่วยย่อย จากนั้นผ่าน Text Encoder ซึ่งสร้างลำดับ Vector ที่ดักจับความหมาย "นกกระเรียน, Fine-Line, Negative Space" กลายเป็นพิกัดในพื้นที่ที่ "นกกระเรียน" อยู่ใกล้กับนกคอยาวอื่น "Fine-Line" อยู่ใกล้กับ Minimalist Style อื่น และ "Negative Space" ดึงไปสู่ Composition ที่มีความว่างเปล่าโดยเจตนา U-Net รับ Conditioning นี้และตัดสินใจในทุกขั้นตอนการ Denoise ว่าจะเก็บรูปแบบ Noise ไหนและกำจัดอะไร Classifier-free Guidance คือ Lever ที่ควบคุมว่าโมเดลตีความตามตัวอักษรขนาดไหน Guidance ต่ำให้การตีความที่นุ่มนวลและสร้างสรรค์มากขึ้น Guidance สูงบังคับให้ยึดตาม Prompt อย่างเคร่งครัด บางครั้งแลกกับคุณภาพภาพ ผลิตภัณฑ์ที่ปรับสำหรับลายสักมักเลือกค่ากลางให้คุณ Sampling Step (โดยทั่วไปยี่สิบถึงห้าสิบ) แลกระหว่างความเร็วและความละเอียด Seed ซึ่งเป็นจำนวนเต็มหนึ่งตัว กำหนด Noise Field เริ่มต้น Prompt และ Seed เดียวกันจะสร้างภาพเดิม นี่คือวิธีที่ Iteration กลายเป็นแบบกำหนดได้แทนที่จะเป็นสล็อตแมชชีน เมื่อคุณได้ผลการสร้างที่ชอบแล้ว คุณสามารถ<a href="/tryon">ดูตัวอย่างลายสักที่สร้างบนผิวหนังของคุณ</a>หรือ<a href="/stencil">แปลงการออกแบบที่สร้างเป็น Stencil</a>เพื่อนำไปให้ช่างสักของคุณ

Input รูปถ่ายมีบทบาทอะไรในการสร้างที่คำนึงถึงผิวหนัง?

Input รูปถ่ายช่วยให้โมเดลสามารถกำหนดเงื่อนไขบนกายวิภาคจริงของคุณ รูปภาพถูก Encode พร้อมกับคำสั่ง ดังนั้นการสร้างจึงเคารพเส้นโค้ง ขนาด และตำแหน่งของส่วนร่างกาย แทนที่จะสร้างการออกแบบแบนๆ ที่ต้องดัดแปลงให้เหมาะกับผิวหนังในภายหลัง

การสร้างจาก Text ล้วนๆ เป็นรูปภาพสร้างการออกแบบที่ลอยอยู่บนพื้นหลังสีขาว เหมาะสำหรับการเลือกสิ่งที่คุณต้องการ แต่ละเลยข้อจำกัดที่สำคัญที่สุดที่ลายสักจริงมี นั่นคือร่างกายที่มันอยู่บน ผิวหนังโค้ง ไม่สมมาตร และสามมิติ Composition ที่ดูสมดุลใน PNG สี่เหลี่ยมอาจดูเอียงเมื่อพันรอบแขนหรือตามเส้นไหปลาร้า การสร้างแบบมีเงื่อนไขรูปถ่ายเชื่อมช่องว่างนั้น เบื้องหลัง ระบบใช้หนึ่งในเทคนิคต่างๆ ได้แก่ ControlNet, IP-Adapter, Depth Conditioning หรือ img2img ที่มี Denoising Strength ต่ำ เพื่อใส่ข้อมูลเกี่ยวกับรูปถ่ายของคุณเข้าสู่กระบวนการ Diffusion โมเดลสามารถอ่านโครงร่างของแขน คำนิยาม Muscle ของหลัง ความลาดเอียงของกระดูกซี่โครง และปรับการออกแบบตามนั้น งูที่ตั้งใจให้พันรอบไบเซปถูกสร้างมาพันอยู่แล้ว ชิ้นงานที่ขนาดสำหรับด้านในแขนท่อนล่างถูกสร้างในอัตราส่วนภาพที่ถูกต้อง การใช้งานที่สองของ Input รูปถ่ายคือ Virtual Try-on แทนที่จะกำหนดเงื่อนไขการสร้าง ระบบจะนำการออกแบบที่เสร็จแล้วมาผสมกับรูปถ่ายของคุณด้วยการแก้ไข Perspective การจับคู่ Opacity และการจัดการ Shadow วิธีนี้ทำให้คุณเห็นว่าลายสักจะมีลักษณะอย่างไรก่อนจอง และเป็นวิธีที่ถูกที่สุดในการค้นพบว่าไอเดียที่คุณชอบบนหน้าจอนั้นไม่เหมาะกับตำแหน่งที่คุณจินตนาการไว้ ไม่ว่าจะ Workflow ไหน ก็เปลี่ยนการสนทนาออกแบบจาก "ฉันชอบรูปนี้ไหม" เป็น "ฉันชอบลายสักนี้บนตัวฉันไหม" ซึ่งเป็นคำถามที่แตกต่างกันมาก

AI สร้างลายสักยังด้อยกว่าช่างสักมนุษย์ตรงไหน?

AI เก่งด้านการสร้างไอเดียและอ่อนด้านงานตกแต่ง มันยังมีปัญหาเรื่องความสมมาตรที่เข้มงวด ใบหน้า มือ ข้อความ และการตัดสินเชิงปฏิบัติว่าการออกแบบจะแก่ชราแผลเป็น และอ่านออกในขนาดเล็กอย่างไร สิ่งเหล่านี้ล้วนเป็นสิ่งที่ช่างสักมนุษย์ที่มีความสามารถจัดการโดยสัญชาตญาณ

คำตอบที่ซื่อสัตย์คือ AI เป็นพันธมิตรการระดมความคิดที่ดีกว่าผู้ที่คอยทำให้เสร็จ มันเร็วกว่ามนุษย์ทุกคนในการสำรวจทิศทาง สร้าง Variant และแสดงให้คุณเห็นว่าไอเดียเดียวกันหนึ่งร้อยแบบมีลักษณะอย่างไร สิ่งนี้เปลี่ยนทุกอย่างเกี่ยวกับขั้นตอนแรกของการออกแบบลายสัก แต่ช่องว่างระหว่าง "ภาพที่สร้างได้ดี" และ "ลายสักที่ดี" นั้นมีจริง และปรากฏในที่เฉพาะเจาะจง ความสมมาตรคือปัญหาแรก Diffusion Model มีความน่าจะเป็น พวกมันไม่บังคับว่าตาซ้ายต้องตรงกับตาขวา ก้านดอกไม้สองอันต้องสะท้อนกันอย่างชัดเจน หรือสิบสองส่วนของ Mandala ต้องเหมือนกัน คุณอาจใกล้เคียงได้ด้วย Prompt และ Seed ที่ถูกต้อง แต่มักจำเป็นต้องมีมนุษย์ทำความสะอาดไฟล์ถ้าความสมมาตรคือจุดสำคัญของชิ้นงาน ใบหน้า มือ และข้อความขนาดเล็กเป็น Mode ความล้มเหลวที่สองด้วยเหตุผลเดียวกัน รายละเอียด High-Frequency ในพื้นที่ที่มีความหนาแน่นทางความหมายสูงคือจุดที่ Diffusion มักสร้างภาพหลอน ข้อจำกัดที่ลึกกว่าคือการตัดสิน Diffusion Model ไม่เคยดูลายสักหาย มันไม่รู้ว่าเส้นบางมากบนด้านข้างนิ้วจะเบลอภายในสองปี หมึกสีขาวจางในแสงแดด การออกแบบที่อัดแน่นอยู่ที่สามเซนติเมตรจะสูญเสียรายละเอียดทั้งหมดจากการกระจายหมึก หรือชิ้นงานหลังต้องพิจารณาว่าร่างกายเคลื่อนไหวอย่างไร สิ่งเหล่านี้คือสิ่งที่ช่างสักที่ทำงานอยู่จะบอกคุณทันที ใช้ AI สร้าง ทำซ้ำ และตรวจสอบภาพ จากนั้นนำไฟล์ไปให้คนที่ใช้เวลาหลายพันชั่วโมงดูหมึกทำงานบนร่างกาย และให้พวกเขาทำส่วนที่เครื่องจักรไม่สามารถทำได้

ประเภทของ Generator ตาม Input Modality และคุณภาพ Output
ประเภท GeneratorInput ที่เหมาะสมที่สุดOutput ทั่วไปข้อจำกัดที่ซื่อสัตย์
Diffusion ทั่วไป (SDXL, MJ)Prompt ข้อความยาวและละเอียดงานศิลปะสไตล์ลายสักต้นฉบับไม่มี Stencil หรือ Skin Awareness แบบ Native
Diffusion Fine-tuned สำหรับลายสักPrompt สั้นบวก Style TagLine Work และ Shading ที่ถูกต้องสำหรับลายสักจำกัดเฉพาะ Style ในชุดข้อมูลฝึก
แบบมีเงื่อนไขรูปถ่าย (ControlNet/IP-Adapter)Prompt บวกรูปถ่ายร่างกายการออกแบบที่เหมาะกับตำแหน่งต้องการรูปถ่าย Reference ที่ใช้ได้
Stencil Converterภาพการออกแบบที่เสร็จแล้วPNG Stencil เส้นดำสะอาดคุณภาพขึ้นอยู่กับ Contrast ของแหล่งที่มา

Diffusion Modelเครือข่ายประสาทเทียมแบบสร้างสรรค์ที่เรียนรู้การย้อนกลับกระบวนการเพิ่ม Noise ทีละขั้นตอน เริ่มจาก Noise สุ่ม มันทำนายและกำจัด Noise ซ้ำๆ โดยนำทางด้วย Prompt ข้อความหรือรูปภาพ จนกระทั่งปรากฏภาพที่สอดคล้องกัน

ข้อเท็จจริงสำคัญ

สถาปัตยกรรมพื้นฐาน
Latent Diffusion ที่มี Text Encoder, U-Net Denoiser และ VAE Decoder
Sampling Step ทั่วไป
ยี่สิบถึงห้าสิบขั้นตอน Denoise ต่อภาพ
ความแน่นอน
Prompt และ Seed เดียวกันสร้างภาพเดิมอย่างแน่นอน
Photo Conditioning
ControlNet, IP-Adapter หรือ Depth Map ปรับการออกแบบให้กับกายวิภาคจริง
จุดอ่อนที่รู้
ความสมมาตรเข้มงวด ใบหน้า มือ ข้อความขนาดเล็ก และการตัดสินการแก่ชราระยะยาว

อ่านต่อไป

วิธีสนุกๆ ในการค้นหารอยสักลายถัดไปของคุณ

Roulette

หมุนวงล้อ ปล่อยให้โชคชะตาเป็นผู้กำหนด

Lucid

จิตใต้สำนึกของคุณซ่อนลายสักไว้

Pulse

สิ่งที่คุณรู้สึกสมควรมีรูปร่าง

Astral

เขียนไว้ในดวงดาว สลักเป็นหมึก

Glyphs

สัญลักษณ์โบราณจากเครื่องหมายสมัยใหม่

Chimera

การผสมผสานที่คาดไม่ถึง สร้างหมึกที่งดงามที่สุด

Ink Battle

หมึกปะทะหมึก ผู้ชมตัดสิน

Name That Ink

อ่านหมึก เปิดเผยจิตใจ