AI TATTOO GENERATION

سازنده‌های تتو با هوش مصنوعی چگونه کار می‌کنند

یک سازنده تتو با هوش مصنوعی مدل پخشِ دقیق‌تنظیم‌شده‌ای روی تصاویر تتو است. دستور متنی شما را می‌خواند، یک میدان نویز تصادفی را در طی مراحل متعدد بازیابی می‌کند و به اثر هنری اصیلی می‌رسد که از الگوهای آموخته‌شده در دوره آموزش شکل گرفته است.

تیم wizard.tattoo · · ۷ دقیقه مطالعه

با کمک هوش مصنوعی تهیه شده و پیش از انتشار توسط تیم تحریریه wizard.tattoo بازبینی شده است.

کدام معماری مدل یک سازنده تتو معمولی با هوش مصنوعی را تغذیه می‌کند؟

بیشتر سازنده‌های تتو یک مدل پخش کامن دقیق‌تنظیم‌شده روی هنر تتو اجرا می‌کنند. یک رمزگذار متن دستور شما را به بردارها تبدیل می‌کند، یک U-Net نویز را از یک تصویر کامن در چندین مرحله حذف می‌کند، و یک رمزگشا کامن نهایی را به طرحی قابل مشاهده تبدیل می‌کند.

معماری غالب امروز پخش کامن است — همان خانواده‌ای که زیربنای Stable Diffusion، SDXL، انتشارات اخیر Midjourney و بیشتر فورک‌های تتوی متن‌باز را تشکیل می‌دهد. کلمه «کامن» کلیدی است: به‌جای حذف نویز در وضوح کامل پیکسل، مدل درون یک نمایش فشرده‌ای که تقریباً یک شانزدهم اندازه است کار می‌کند، به همین دلیل یک تولید در ثانیه‌ها تمام می‌شود نه دقیقه‌ها. سه مؤلفه اهمیت دارند. یک رمزگذار متن (معمولاً یک نوع CLIP یا T5) دستور نوشتاری شما را به یک بردار چندبُعدی تبدیل می‌کند که معنا را می‌گیرد، نه فقط کلمات کلیدی. یک U-Net کار واقعی حذف نویز را انجام می‌دهد، در هر مرحله توسط آن بردار متن شرط‌گذاری می‌شود — پس مدل دائماً به سمت «چیزهایی که شبیه دستور هستند» هدایت می‌شود. یک رمزگشای اتورگرسیو متغیر سپس کامن نهایی را به تصویر قابل مشاهده گسترش می‌دهد. بخش مخصوص تتو در طول دقیق‌تنظیم اتفاق می‌افتد. یک مدل پایه که اینترنت باز را دیده با مجموعه داده‌ای انتخاب‌شده از هنر تتو — صفحات فلاش، عکس‌های بهبودیافته، خطوط، استنسیل‌ها — بیشتر آموزش می‌بیند تا وزن‌های شبکه به سمت دستور بصری تتوها متمایل شود. مقاله اصلی DDPM در <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> مرجع معتبر است اگر می‌خواهید ریاضیات پشت فرایند حذف نویز را بدانید. نتیجه عملی برای شما این است که ابزار قبل از اینکه چیزی تایپ کنید، معنای «تک‌سوزن» یا «سنتی آمریکایی» را می‌فهمد. اگر می‌خواهید <a href="/blog/best-ai-tattoo-generator">ابزارهای تتو هوش مصنوعی فعلی را مقایسه کنید</a>، معماری تقریباً همیشه نوعی از این مجموعه است — تفاوت‌ها در داده آموزشی و پیش‌فرض‌های استنتاج هستند.

ابزار چگونه یک دستور متنی را به طرح تتو ترجمه می‌کند؟

دستور شما رمزگذاری می‌شود، به یک بردار تبدیل می‌شود و در هر مرحله حذف نویز به U-Net به‌عنوان شرط داده می‌شود. مدل از نویز خالص شروع می‌کند و به‌تدریج بخش‌هایی را که با بردار متن مطابقت ندارند حذف می‌کند و تصویری را که مطابقت دارد باقی می‌گذارد.

ترجمه از کلمات به تصویر بازیابی نیست. مدل در پایگاه داده‌ای از تتوها به دنبال چیزی که با دستور شما مطابقت داشته باشد نمی‌گردد — بلکه تصویری را تولید می‌کند که پیش از این وجود نداشته، هدایت‌شده توسط الگوهای آماری که در آموزش جذب کرده است. این تمایز مهم است چون هم قوت‌ها (اصالت، تنوع بی‌نهایت) و هم ضعف‌ها (خطاهای تشریحی گاه‌وبیگاه، انحراف دستور) را توضیح می‌دهد. مکانیکی، دستور از یک رمزگذار می‌گذرد که آن را به واحدهای زیرکلمه‌ای تقسیم می‌کند، سپس از رمزگذار متن، که دنباله‌ای از بردارهای معنایی تولید می‌کند. «یک درنا، خط ظریف، فضای منفی» به مختصاتی در فضایی تبدیل می‌شود که «درنا» در کنار پرندگان با گردن بلند دیگر می‌نشیند. U-Net این شرط را دریافت می‌کند و از آن برای تصمیم‌گیری درباره الگوهای نویز در هر مرحله استفاده می‌کند. راهنمایی بدون طبقه‌بند اهرمی است که کنترل می‌کند مدل چقدر تحت‌اللفظی شما را تفسیر می‌کند. راهنمایی پایین تفسیرهای نرم‌تر و خلاقانه‌تر تولید می‌کند؛ راهنمایی بالا پایبندی دقیق به دستور را اجبار می‌کند — گاهی به قیمت کیفیت تصویر. محصولات تنظیم‌شده برای تتو معمولاً یک مقدار میانی برای شما انتخاب می‌کنند. هنگامی که تولیدی می‌یابید که دوست دارید، می‌توانید <a href="/tryon">پیش‌نمایش تتوی تولیدشده روی پوست خود</a> را ببینید یا <a href="/stencil">طرح تولیدشده را به استنسیل تبدیل کنید</a> تا نزد هنرمندتان ببرید.

ورودی عکس چه نقشی در تولید با آگاهی از پوست دارد؟

ورودی عکس به مدل اجازه می‌دهد روی تشریح واقعی شما شرط‌گذاری کند. تصویر در کنار دستور کدگذاری می‌شود، بنابراین تولید به انحناها، مقیاس و موقعیت قسمت بدن احترام می‌گذارد — به‌جای تولید طرحی مسطح که بعداً باید روی پوست تطبیق داده شود.

تولید خالص متن به تصویر طرحی روی پس‌زمینه سفید تولید می‌کند. این برای انتخاب آنچه می‌خواهید کافی است، اما یک محدودیت مهم را نادیده می‌گیرد: بدنی که تتوی واقعی روی آن قرار می‌گیرد. پوست منحنی، نامتقارن و سه‌بعدی است. ترکیبی که به‌عنوان یک PNG مربع متوازن به نظر می‌رسد می‌تواند وقتی دور ساعد می‌پیچد یا خط ترقوه را دنبال می‌کند کج به نظر برسد. تولید شرط‌گذاری‌شده با عکس این شکاف را می‌بندد. پشت صحنه سیستم از یکی از چند تکنیک استفاده می‌کند — ControlNet، IP-Adapter، شرط‌گذاری عمق، یا img2img با قدرت حذف نویز پایین — تا اطلاعات عکس شما را به فرایند پخش تزریق کند. مدل می‌تواند خط ساعد، تعریف عضله کمر، شیب قفسه سینه شما را بخواند و طرح را بر این اساس تنظیم کند. استفاده دوم از ورودی عکس پرو مجازی است: به‌جای شرط‌گذاری تولید، سیستم یک طرح تمام‌شده را روی عکس شما با اصلاح دیدگاه، تطبیق شفافیت و مدیریت سایه قرار می‌دهد. این گونه است که قبل از رزرو نوبت می‌بینید تتو چگونه به نظر می‌رسد — و ارزان‌ترین راه برای کشف این است که ایده‌ای که روی صفحه دوست داشتید برای جایگاهی که تصور می‌کردید اشتباه است.

تولید تتو با هوش مصنوعی هنوز کجا از هنرمندان انسانی عقب است؟

هوش مصنوعی در ایده‌پردازی عالی و در کارهای پایانی ضعیف است. در تقارن دقیق، چهره‌ها، دست‌ها، متن و قضاوت عملی درباره اینکه یک طرح چگونه پیر می‌شود، زخم می‌شود و در اندازه‌های کوچک خوانده می‌شود مشکل دارد — همه چیزهایی که یک هنرمند انسانی باتجربه به‌طور غریزی مدیریت می‌کند.

پاسخ صادقانه این است که هوش مصنوعی یک شریک طوفان فکری بهتر از یک کامل‌کننده است. در کشف جهت‌ها، تولید گزینه‌ها و نشان‌دادن صد نسخه متفاوت از یک ایده از هر انسانی سریع‌تر است. این همه چیز را در مرحله اولیه طراحی تتو تغییر می‌دهد. اما شکاف بین «تصویر تولیدشده خوب» و «تتوی خوب» واقعی است و در جاهای خاصی نشان می‌دهد. تقارن اولین است. مدل‌های پخش احتمالاتی هستند — آن‌ها اجبار نمی‌کنند که چشم چپ با چشم راست مطابقت داشته باشد، یا دو ساقه گل به‌طور تمیز آینه باشند، یا دوازده بخش ماندالا یکسان باشند. چهره‌ها، دست‌ها و متن کوچک دومین حالت شکست برای همین دلیل هستند: جزئیات دقیق در مناطق معنایی متراکم جایی است که پخش‌ها بیشتر توهم می‌زنند. محدودیت عمیق‌تر قضاوت است. یک مدل پخش هرگز شاهد بهبود تتو نبوده است. نمی‌داند که خطوط بسیار نازک روی کنار انگشت در دو سال محو می‌شوند، که جوهر سفید در آفتاب محو می‌شود، که یک طرح متراکم در سه سانتی‌متر تمام جزئیاتش را از دست می‌دهد، یا که یک تکه پشتی باید حرکت بدن را در نظر بگیرد. اینها چیزهایی هستند که یک هنرمند تتوی کارکرده فوری به شما می‌گوید. از هوش مصنوعی برای تولید، تکرار و اعتبارسنجی بصری استفاده کنید — سپس فایل را نزد کسی ببرید که هزاران ساعت صرف تماشای رفتار جوهر روی بدن‌ها کرده است و بگذارید او بخشی را انجام دهد که ماشین نمی‌تواند.

نوع سازنده بر اساس شیوه ورودی و کیفیت خروجی
نوع سازندهبهترین ورودیخروجی معمولیمحدودیت صادقانه
پخش عمومی (SDXL, MJ)دستور متنی بلند و دقیقآثار هنری اصیل با سبک تتوبدون آگاهی از استنسیل یا پوست
پخش دقیق‌تنظیم‌شده برای تتودستور کوتاه + برچسب سبکخطوط و سایه‌زنی صحیح برای تتومحدود به سبک‌های موجود در داده آموزشی
شرط‌گذاری‌شده با عکس (ControlNet/IP-Adapter)دستور + عکس بدنطرح متناسب با جایگاهنیاز به عکس مرجع قابل استفاده دارد
مبدل استنسیلتصویر طرح تمام‌شدهPNG خط سیاه تمیزکیفیت به کنتراست منبع بستگی دارد

مدل پخشیک شبکه عصبی مولد که یاد می‌گیرد فرایند نویزگذاری تدریجی را معکوس کند. از نویز تصادفی شروع می‌کند، به‌طور تکراری نویز را پیش‌بینی و حذف می‌کند — هدایت‌شده توسط یک دستور متنی یا تصویری — تا یک تصویر منسجم پدیدار شود.

حقایق کلیدی

معماری زیرین
پخش کامن با رمزگذار متن، حذف‌کننده نویز U-Net و رمزگشای VAE
مراحل نمونه‌برداری معمولی
بیست تا پنجاه مرحله حذف نویز به ازای هر تصویر
قطعیت
دستور و بذر یکسان دقیقاً همان تصویر را بازتولید می‌کنند
شرط‌گذاری عکس
ControlNet، IP-Adapter یا نقشه‌های عمق طرح را با تشریح واقعی تطبیق می‌دهند
نقاط ضعف شناخته‌شده
تقارن دقیق، چهره‌ها، دست‌ها، متن کوچک و قضاوت پیری طولانی‌مدت

بعدی را بخوانید

راه‌های سرگرم‌کننده برای کشف تتوی بعدی شما

رولت

چرخ را بچرخان، بگذار سرنوشت تصمیم بگیرد

رویا

ناخودآگاه شما طرح را در خود دارد

نبض

آنچه حس می‌کنی شایسته یک شکل است

اختری

در ستاره‌ها نوشته شده، با جوهر کشیده شده

نشانه‌ها

نشان‌های کهن از نمادهای امروزی

کایمرا

پیوندهای نامحتمل بهترین جوهر را می‌سازند

نبرد جوهر

جوهر با جوهر روبرو می‌شود، جمعیت تصمیم می‌گیرد

نام آن جوهر

جوهر را بخوان، ذهن را آشکار کن