AI TATTOO GENERATION

AI टैटू जनरेटर कैसे काम करते हैं

AI टैटू जनरेटर एक डिफ्यूज़न मॉडल होता है जिसे टैटू चित्रों पर फाइन-ट्यून किया गया होता है। यह आपका प्रॉम्प्ट पढ़ता है, कई चरणों में एक यादृच्छिक शोर क्षेत्र को डिनॉइज़ करता है, और प्रशिक्षण के दौरान सीखे गए पैटर्न के आधार पर मूल कलाकृति तैयार करता है।

wizard.tattoo टीम · · 7 मिनट पढ़ें

AI सहायता से लिखा गया और प्रकाशन से पहले wizard.tattoo की संपादकीय टीम द्वारा समीक्षित।

एक सामान्य AI टैटू जनरेटर किस मॉडल आर्किटेक्चर पर काम करता है?

अधिकांश टैटू जनरेटर एक लेटेंट डिफ्यूज़न मॉडल चलाते हैं जिसे टैटू कला पर फाइन-ट्यून किया गया होता है। एक टेक्स्ट एनकोडर आपके प्रॉम्प्ट को वेक्टर में बदलता है, एक U-Net कई चरणों में एक लेटेंट इमेज को डिनॉइज़ करता है, और एक डिकोडर अंतिम लेटेंट को दृश्यमान डिज़ाइन में परिवर्तित करता है।

आज का प्रमुख आर्किटेक्चर लेटेंट डिफ्यूज़न है — वही परिवार जो Stable Diffusion, SDXL, Midjourney के हालिया संस्करणों और अधिकांश ओपन टैटू-विशिष्ट फोर्क्स का आधार है। "लेटेंट" यहाँ महत्वपूर्ण शब्द है: पूर्ण पिक्सेल रेज़ोल्यूशन पर डिनॉइज़िंग करने के बजाय, मॉडल एक संपीड़ित प्रतिनिधित्व के अंदर काम करता है जो लगभग सोलहवाँ आकार होता है, इसीलिए एक जनरेशन मिनटों के बजाय सेकंड में पूरी होती है। तीन घटक महत्वपूर्ण हैं। एक टेक्स्ट एनकोडर (आमतौर पर CLIP या T5 वेरिएंट) आपके लिखे प्रॉम्प्ट को उच्च-आयामी वेक्टर में मैप करता है जो अर्थ कैप्चर करता है, न कि केवल कीवर्ड। एक U-Net वास्तविक डिनॉइज़िंग कार्य करता है, हर चरण में उस टेक्स्ट वेक्टर द्वारा कंडीशन किया जाता है। एक वेरिएशनल ऑटोएनकोडर डिकोडर फिर अंतिम लेटेंट को दृश्यमान छवि में विस्तारित करता है। टैटू-विशिष्ट भाग फाइन-ट्यूनिंग के दौरान होता है। एक बेस मॉडल जिसने खुले वेब को देखा है, उसे टैटू कला के एक क्यूरेटेड संग्रह पर प्रशिक्षित किया जाता है — फ्लैश शीट, हीलिंग फोटो, लाइन वर्क, स्टेंसिल — जब तक नेटवर्क के वज़न टैटू की दृश्य व्याकरण की ओर झुकते नहीं: आत्मविश्वासी आउटलाइन, नियंत्रित नकारात्मक स्थान, डॉट शेडिंग, फाइन-लाइन बनाम ट्रेडिशनल के सम्मेलन। कुछ उत्पाद प्रति शैली LoRAs (छोटे विशेषता एडेप्टर) जोड़ते हैं। मूल DDPM पेपर <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> पर उपलब्ध है यदि आप डिनॉइज़िंग प्रक्रिया के पीछे का गणित समझना चाहते हैं। आपके लिए व्यावहारिक परिणाम यह है कि टूल पहले से ही समझता है कि "सिंगल नीडल" या "अमेरिकन ट्रेडिशनल" का क्या अर्थ है।

टूल एक टेक्स्ट प्रॉम्प्ट को टैटू डिज़ाइन में कैसे अनुवादित करता है?

आपका प्रॉम्प्ट टोकनाइज़ होता है, वेक्टर में एम्बेड होता है, और हर डिनॉइज़िंग चरण में U-Net को कंडीशनिंग के रूप में दिया जाता है। मॉडल शुद्ध शोर से शुरू होता है और पुनरावृत्त रूप से उन हिस्सों को हटाता है जो प्रॉम्प्ट वेक्टर से मेल नहीं खाते, एक ऐसी छवि छोड़ता है जो प्रॉम्प्ट से मेल खाती है।

शब्दों से चित्र तक का अनुवाद पुनर्प्राप्ति नहीं है। मॉडल आपके प्रॉम्प्ट से मेल खाने वाली टैटू के लिए डेटाबेस नहीं खोज रहा — यह एक ऐसी छवि उत्पन्न कर रहा है जो पहले कभी अस्तित्व में नहीं थी, प्रशिक्षण के दौरान अवशोषित सांख्यिकीय पैटर्न द्वारा निर्देशित। यह अंतर महत्वपूर्ण है क्योंकि यह दोनों ताकतें (मौलिकता, अनंत भिन्नता) और कमज़ोरियाँ (कभी-कभी शरीर रचना की गड़बड़ियाँ, प्रॉम्प्ट बहाव) दोनों की व्याख्या करता है। यांत्रिक रूप से, प्रॉम्प्ट एक टोकनाइज़र से गुज़रता है जो इसे उप-शब्द इकाइयों में तोड़ता है, फिर टेक्स्ट एनकोडर से होकर, जो अर्थपूर्ण अर्थ कैप्चर करने वाले वेक्टर का एक अनुक्रम बनाता है। "एक सारस, फाइन-लाइन, नकारात्मक स्थान" एक ऐसे स्थान में निर्देशांक बन जाते हैं जहाँ "सारस" अन्य लंबी-गर्दन वाले पक्षियों के पास बैठता है, "फाइन-लाइन" अन्य न्यूनतमवादी शैलियों के पास बैठता है। U-Net इस कंडीशनिंग को प्राप्त करता है और इसका उपयोग हर डिनॉइज़िंग चरण में निर्णय लेने के लिए करता है। क्लासिफायर-फ्री गाइडेंस वह लीवर है जो नियंत्रित करता है कि मॉडल आपकी कितनी शाब्दिक व्याख्या करता है। कम गाइडेंस नरम, अधिक रचनात्मक व्याख्याएँ उत्पन्न करती है; उच्च गाइडेंस प्रॉम्प्ट का कड़ाई से पालन करती है। एक बार जब आपको एक पसंदीदा जनरेशन मिल जाती है, तो आप उसे <a href="/tryon">अपनी त्वचा पर देख सकते हैं</a> या <a href="/stencil">स्टेंसिल में बदल सकते हैं</a>।

त्वचा-जागरूक जनरेशन में फोटो इनपुट की क्या भूमिका होती है?

फोटो इनपुट मॉडल को आपकी वास्तविक शारीरिक रचना पर कंडीशन करने देता है। छवि को प्रॉम्प्ट के साथ एनकोड किया जाता है, इसलिए जनरेशन शरीर के हिस्से के घुमाव, पैमाने और स्थान का सम्मान करती है — एक सपाट डिज़ाइन उत्पन्न करने के बजाय जिसे बाद में त्वचा के अनुसार ढालना पड़े।

शुद्ध टेक्स्ट-टू-इमेज जनरेशन एक सफेद पृष्ठभूमि पर तैरता हुआ डिज़ाइन उत्पन्न करती है। यह यह तय करने के लिए ठीक है कि आप क्या चाहते हैं, लेकिन यह एकल सबसे महत्वपूर्ण बाधा को नज़रअंदाज़ करता है जो एक वास्तविक टैटू में होती है: जिस शरीर पर वह बैठता है। त्वचा घुमावदार, असममित और त्रि-आयामी होती है। फोटो-कंडीशन्ड जनरेशन उस अंतर को भरती है। पर्दे के पीछे सिस्टम कई तकनीकों में से एक का उपयोग करता है — ControlNet, IP-Adapter, गहराई कंडीशनिंग, या कम डिनॉइज़िंग ताकत के साथ img2img — डिफ्यूज़न प्रक्रिया में आपकी फोटो के बारे में जानकारी इंजेक्ट करने के लिए। मॉडल आपकी बाँह की रूपरेखा, आपकी पीठ की मांसपेशी की परिभाषा, आपकी पसली की ढलान पढ़ सकता है। फोटो इनपुट का दूसरा उपयोग वर्चुअल ट्राय-ऑन है: जनरेशन को कंडीशन करने के बजाय, सिस्टम एक पूर्ण डिज़ाइन को आपकी फोटो पर परिप्रेक्ष्य सुधार, अपारदर्शिता मिलान और छाया प्रबंधन के साथ संयोजित करता है। यही वह तरीका है जिससे आप बुकिंग से पहले देख सकते हैं कि टैटू कैसा दिखेगा।

AI टैटू जनरेशन अभी भी मानव कलाकारों से कहाँ कमज़ोर है?

AI विचार-उत्पत्ति में उत्कृष्ट है और फिनिशिंग में कमज़ोर है। यह कड़ी समरूपता, चेहरे, हाथ, टेक्स्ट और व्यावहारिक निर्णय जैसे डिज़ाइन कैसे बुढ़ापे में, निशान पड़ने पर और छोटे आकार में दिखेगा — जो सब कुछ एक सक्षम मानव कलाकार सहज रूप से संभालता है — से जूझता है।

ईमानदार उत्तर यह है कि AI एक फिनिशर की तुलना में बेहतर विचार-मंथन साझेदार है। यह किसी भी मानव की तुलना में दिशाओं की खोज, भिन्नताएँ उत्पन्न करने और आपको एक ही विचार के सौ अलग-अलग रूपों को दिखाने में तेज़ है। लेकिन "अच्छी उत्पन्न छवि" और "अच्छे टैटू" के बीच का अंतर वास्तविक है। समरूपता पहली समस्या है। डिफ्यूज़न मॉडल प्रायिकताशास्त्र पर आधारित हैं — वे लागू नहीं करते कि बायाँ नेत्र दाएँ नेत्र से मेल खाए, कि दो फूलों के डंठल साफ़ मिरर हों, या कि एक मंडल के बारह सेक्टर समान हों। चेहरे, हाथ और छोटा टेक्स्ट एक ही कारण से दूसरी विफलता है: शब्दार्थ रूप से घने क्षेत्रों में उच्च-आवृत्ति विवरण वह है जहाँ डिफ्यूज़न सबसे अधिक भ्रम पैदा करता है। गहरी सीमा निर्णय क्षमता है। एक डिफ्यूज़न मॉडल ने कभी टैटू को ठीक होते नहीं देखा। यह नहीं जानता कि उंगली के किनारे पर बहुत पतली रेखाएँ दो साल में धुंधली हो जाएँगी, कि सफेद स्याही धूप में फीकी पड़ जाती है। वे चीज़ें हैं जो एक काम करने वाला टैटू कलाकार आपको मौके पर बताएगा।

इनपुट मॉडलिटी और आउटपुट गुणवत्ता के आधार पर जनरेटर प्रकार
जनरेटर प्रकारसर्वोत्तम इनपुटसामान्य आउटपुटवास्तविक सीमा
सामान्य-उद्देश्य डिफ्यूज़न (SDXL, MJ)लंबा, विस्तृत टेक्स्ट प्रॉम्प्टमूल टैटू-शैली कलाकृतिकोई मूल स्टेंसिल या त्वचा जागरूकता नहीं
टैटू-फाइन-ट्यून्ड डिफ्यूज़नछोटा प्रॉम्प्ट + शैली टैगटैटू-सही लाइनवर्क और शेडिंगप्रशिक्षण सेट की शैलियों तक सीमित
फोटो-कंडीशन्ड (ControlNet/IP-Adapter)प्रॉम्प्ट + शरीर की फोटोप्लेसमेंट के अनुसार डिज़ाइनउपयोगी संदर्भ फोटो की आवश्यकता
स्टेंसिल कनवर्टरतैयार डिज़ाइन छविसाफ़ काली रेखा स्टेंसिल PNGगुणवत्ता स्रोत कंट्रास्ट पर निर्भर

डिफ्यूज़न मॉडलएक जेनेरेटिव न्यूरल नेटवर्क जो चरण-दर-चरण नॉइज़िंग प्रक्रिया को उलटना सीखता है। यादृच्छिक शोर से शुरू होकर, यह पुनरावृत्त रूप से शोर की भविष्यवाणी करता है और हटाता है — एक टेक्स्ट या छवि प्रॉम्प्ट द्वारा निर्देशित — जब तक एक सुसंगत छवि उभरती नहीं है।

मुख्य तथ्य

अंतर्निहित आर्किटेक्चर
टेक्स्ट एनकोडर, U-Net डिनॉइज़र और VAE डिकोडर के साथ लेटेंट डिफ्यूज़न
सामान्य सैंपलिंग चरण
प्रति छवि बीस से पचास डिनॉइज़िंग चरण
निर्धारणवाद
एक ही प्रॉम्प्ट और सीड से ठीक वही छवि दोबारा बनती है
फोटो कंडीशनिंग
ControlNet, IP-Adapter, या गहराई नक्शे वास्तविक शारीरिक रचना के अनुसार डिज़ाइन फिट करते हैं
ज्ञात कमज़ोरियाँ
कड़ी समरूपता, चेहरे, हाथ, छोटा टेक्स्ट और दीर्घकालिक उम्र बढ़ने का निर्णय

आगे पढ़ें

अपना अगला टैटू खोजने के मज़ेदार तरीके

Roulette

पहिया घुमाओ, किस्मत को फ़ैसला करने दो

Lucid

आपके अवचेतन में छिपा है डिज़ाइन

Pulse

जो आप महसूस करते हैं वो एक रूप पाने का हक़दार है

Astral

सितारों में लिखा, स्याही में उतारा

Glyphs

आधुनिक चिह्नों से प्राचीन निशान

Chimera

अनोखे जोड़ बनाते हैं बेहतरीन स्याही

Ink Battle

स्याही से स्याही भिड़ी, भीड़ ने फ़ैसला किया

Name That Ink

स्याही पढ़ो, मन जानो