AI TATTOO GENERATION

Як працюють ІІ-генератори татуювань

ІІ-генератор татуювань — це дифузійна модель, дообучена на зображеннях татуювань. Вона читає ваш запит, ітеративно прибирає шум із випадкового поля та в результаті створює оригінальний малюнок, заснований на патернах, засвоєних під час навчання.

Команда wizard.tattoo · · 6 хв читання

Чернетку підготовлено за допомогою штучного інтелекту та переглянуто редакційною командою wizard.tattoo перед публікацією.

Яка архітектура моделі лежить в основі типового ІІ-генератора татуювань?

Більшість генераторів татуювань використовують латентну дифузійну модель, дообучену на тату-арті. Текстовий енкодер перетворює ваш запит на вектори, U-Net виконує шумоподавлення латентного зображення за кілька кроків, а декодер перетворює фінальний латент на видимий малюнок.

Домінуюча архітектура сьогодні — це латентна дифузія: те саме сімейство, що лежить в основі Stable Diffusion, SDXL, останніх релізів Midjourney та більшості спеціалізованих тату-форків. Ключове слово — «латентна»: замість шумоподавлення на рівні повного розрізнення пікселів модель працює у стиснутому просторі представлень, приблизно у шістнадцять разів меншому, саме тому генерація займає секунди, а не хвилини. Важливі три компоненти. Текстовий енкодер (зазвичай варіант CLIP або T5) перетворює ваш текстовий запит на багатовимірний вектор, що фіксує зміст, а не лише ключові слова. U-Net виконує фактичну роботу з шумоподавлення, на кожному кроці використовуючи текстовий вектор як умову — завдяки цьому модель постійно спрямовується до «речей, схожих на опис запиту». Декодер варіаційного автокодировщика потім розгортає фінальний латент назад у видиме зображення. Специфіка татуювання виникає в процесі дообучення. Базова модель, навчена на відкритому вебі, додатково тренується на ретельно відібраному корпусі тату-арту — флеш-листах, фотографіях загоєних татуювань, лайнворку, трафаретах — доки ваги мережі не починають тяжіти до візуальної граматики татуювань: чіткі контури, кероване негативне простір, крапкове штрихування, особливості файн-лайн порівняно з традиційним стилем. Деякі продукти додають зверху LoRA (невеликі спеціалізовані адаптери) для кожного стилю. Оригінальна стаття DDPM за адресою <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> — канонічне джерело, якщо ви хочете розібратися в математиці шумоподавлення. Практичний результат для вас: інструмент вже розуміє, що означають «single needle» або «американський традиційний» ще до того, як ви їх введете.

Як інструмент перетворює текстовий запит на ескіз татуювання?

Ваш запит токенізується, перетворюється на вектор і передається в U-Net як умова на кожному кроці шумоподавлення. Модель починає з чистого шуму та ітеративно видаляє частини, що не відповідають вектору запиту, залишаючи зображення, яке йому відповідає.

Переклад слів у картинку — це не пошук по базі даних. Модель не шукає в архіві татуювань зображення, що відповідають вашому запиту — вона генерує зображення, якого ніколи не існувало раніше, керуючись статистичними патернами, засвоєними під час навчання. Ця відмінність важлива, оскільки пояснює як сильні сторони (оригінальність, нескінченні варіації), так і слабкі (іноді анатомічні помилки, дрейф запиту). Технічно запит проходить через токенізатор, що розбиває його на субсловні одиниці, потім через текстовий енкодер, який виробляє послідовність векторів, що фіксують семантичний зміст. «Журавель, файн-лайн, негативне простір» стає координатами у просторі, де «журавель» сусідить з іншими довгошиїми птахами, «файн-лайн» — з іншими мінімалістичними стилями, а «негативне простір» тяжіє до композицій із навмисною порожнечею. U-Net отримує цю умову і використовує її, щоб на кожному кроці шумоподавлення вирішувати, які патерни шуму зберегти, а які прибрати. Classifier-free guidance — це важіль, що керує тим, наскільки буквально модель інтерпретує ваш запит. Низьке значення дає м'якші, більш творчі інтерпретації; високе примушує до суворого дотримання запиту — іноді на шкоду якості зображення. Тату-налаштовані продукти зазвичай вибирають середнє значення за вас. Кроки семплінгу (зазвичай від двадцяти до п'ятдесяти) регулюють баланс швидкості та деталізації. Зерно — одне ціле число — визначає початкове поле шуму; однаковий запит і однакове зерно дають те саме зображення.

Яку роль відіграє фотовхід у генерації з урахуванням шкіри?

Фотовхід дозволяє моделі спиратися на вашу реальну анатомію. Зображення кодується разом із запитом, тому генерація враховує вигини, масштаб і розташування частини тіла — замість створення плоского малюнка, який потім доведеться підганяти під шкіру.

Суто текстово-візуальна генерація створює малюнок на білому тлі. Це нормально для вибору того, що ви хочете, але ігнорує найважливіше обмеження справжнього татуювання: тіло, на якому воно буде. Шкіра вигнута, асиметрична і тривимірна. Композиція, яка виглядає збалансованою у вигляді квадратного PNG, може здаватися кривою, коли вона огортає передпліччя або слідує лінії ключиці. Фотообумовлена генерація усуває цей розрив. Система використовує одну з кількох технік — ControlNet, IP-Adapter, depth conditioning або img2img з низькою силою шумоподавлення — щоб вводити інформацію про вашу фотографію в процес дифузії. Модель може зчитувати контур вашої руки, м'язовий рельєф спини, нахил ребер і відповідно коригувати малюнок. Змія, задумана для обвивання біцепса, генерується вже в обмотаному вигляді; елемент для внутрішньої частини передпліччя створюється у правильному співвідношенні сторін. Друге застосування фотовходу — віртуальна примірка: замість обумовлення генерації система накладає готовий дизайн на вашу фотографію з корекцією перспективи, підбором непрозорості та відображенням тіней. Саме так ви бачите, як виглядатиме татуювання, перш ніж записуватися — і саме так найдешевше виявити, що ідея, яка подобалася на екрані, не підходить задуманому розташуванню.

Де ІІ-генерація татуювань досі поступається майстрам-людям?

ІІ чудово справляється з розробкою ідей і погано — з фінішною роботою. Він погано справляється з суворою симетрією, обличчями, руками, текстом і практичним судженням про те, як малюнок старітиме, залишатиме шрами та читатиметься при малому розмірі — усе це будь-який досвідчений майстер робить інстинктивно.

Чесна відповідь: ІІ — кращий партнер для мозкового штурму, ніж фінішний виконавець. Він швидший за будь-яку людину в дослідженні напрямків, генерації варіантів і демонстрації того, як виглядають сотні різних трактувань однієї ідеї. Це змінює все на початковому етапі проектування татуювання. Але розрив між «гарним згенерованим зображенням» і «гарним татуюванням» реальний і проявляється в конкретних місцях. Симетрія — перша проблема. Дифузійні моделі ймовірнісні — вони не гарантують, що ліве око збігається з правим, що два стебла квіток ідеально відображають одне одного, або що дванадцять секторів мандали ідентичні. Можна наблизитися з правильним запитом і зерном, але людина, що чистить файл, зазвичай необхідна, якщо симетрія — суть роботи. Обличчя, руки і дрібний текст — другий режим відмови з тієї самої причини: високочастотні деталі в семантично насичених областях — це місце, де дифузія найчастіше галюцинує. Глибше обмеження — судження. Дифузійна модель ніколи не спостерігала загоєння татуювання. Вона не знає, що дуже тонкі лінії на боковій поверхні пальця розмиються протягом двох років, що біле чорнило тьмяніє на сонці, що щільно скомпонований малюнок у три сантиметри втратить усі деталі через розтікання чорнила, або що дизайн для спини повинен враховувати рух тіла. Саме це скаже вам досвідчений майстер татуювання одразу. Використовуйте ІІ для генерації, ітерації та перевірки візуального — а потім принесіть файл людині, що вклала тисячі годин у спостереження за поведінкою чорнила на шкірі, і дозвольте їй зробити те, що машина не вміє.

Типи генераторів за вхідною модальністю та якістю виводу
Тип генератораНайкращий ввідТиповий вивідЧесне обмеження
Універсальна дифузія (SDXL, MJ)Довгий детальний текстовий запитОригінальний арт у стилі татуНемає нативного трафарету або обліку шкіри
Дифузія, дообучена на татуКороткий запит + тег стилюПравильний лайнворк і штрихуванняОбмежено стилями з навчального набору
Фотообумовлена (ControlNet/IP-Adapter)Запит + фото тілаМалюнок, підігнаний під розташуванняПотребує придатну референс-фотографію
Конвертер у трафаретГотове зображення дизайнуЧистий трафарет PNG з чорними лініямиЯкість залежить від контрастності джерела

дифузійна модельГенеративна нейронна мережа, яка вчиться обертати покроковий процес зашумлення. Починаючи з випадкового шуму, вона ітеративно передбачає та видаляє шум — під керівництвом текстового або графічного запиту — доки не проявиться зв'язне зображення.

Ключові факти

Базова архітектура
Латентна дифузія з текстовим енкодером, U-Net денойзером і VAE декодером
Типова кількість кроків семплінгу
Від двадцяти до п'ятдесяти кроків шумоподавлення на зображення
Детермінізм
Однаковий запит і зерно відтворюють те саме зображення
Фотообумовлення
ControlNet, IP-Adapter або карти глибини підганяють дизайн під реальну анатомію
Відомі слабкі місця
Сувора симетрія, обличчя, руки, дрібний текст і довгострокова оцінка старіння

Читати далі

Творчі способи знайти своє наступне тату

Рулетка

Крутни колесо, нехай доля вирішує

Lucid

Твоя підсвідомість вже знає дизайн

Pulse

Те, що відчуваєш, заслуговує на форму

Astral

Написано зірками, намальовано чорнилом

Glyphs

Давні знаки із сучасних символів

Chimera

Неймовірні поєднання створюють найкраще тату

Ink Battle

Тату проти тату, натовп вирішує

Name That Ink

Прочитай чорнило, розкрий задум