AI TATTOO GENERATION

AI ట్యాటూ జెనరేటర్లు ఎలా పనిచేస్తాయి

AI ట్యాటూ జెనరేటర్ అనేది ట్యాటూ చిత్రాలపై ఫైన్-ట్యూన్ చేయబడిన డిఫ్యూజన్ మోడల్. ఇది మీ ప్రాంప్ట్‌ను చదివి, అనేక దశలలో యాదృచ్ఛిక నాయిజ్ ఫీల్డ్‌ను డీనాయిజ్ చేసి, శిక్షణ సమయంలో నేర్చుకున్న నమూనాల ఆధారంగా అసలైన కళాకృతిని సృష్టిస్తుంది.

wizard.tattoo బృందం · · 6 నిమి చదవడం

AI సహాయంతో ముసాయిదా రూపొందించబడింది మరియు ప్రచురించడానికి ముందు wizard.tattoo సంపాదకీయ బృందం సమీక్షించింది.

సాధారణ AI ట్యాటూ జెనరేటర్‌కు ఏ మోడల్ ఆర్కిటెక్చర్ శక్తినిస్తుంది?

చాలా ట్యాటూ జెనరేటర్లు ట్యాటూ కళపై ఫైన్-ట్యూన్ చేయబడిన లేటెంట్ డిఫ్యూజన్ మోడల్‌ను నడుపుతాయి. టెక్స్ట్ ఎన్‌కోడర్ మీ ప్రాంప్ట్‌ను వెక్టర్లుగా మారుస్తుంది, U-Net అనేక దశలలో లేటెంట్ చిత్రాన్ని డీనాయిజ్ చేస్తుంది, మరియు డీకోడర్ చివరి లేటెంట్‌ను దృశ్యమాన డిజైన్‌గా మారుస్తుంది.

నేటి ప్రధాన ఆర్కిటెక్చర్ లేటెంట్ డిఫ్యూజన్ — ఇది Stable Diffusion, SDXL, Midjourney యొక్క ఇటీవలి విడుదలలు మరియు చాలా ఓపెన్ ట్యాటూ-నిర్దిష్ట ఫోర్క్‌ల వెనుక ఉన్న కుటుంబం. "లేటెంట్" అనే మాట కీలకమైనది: పూర్తి పిక్సెల్ రిజల్యూషన్‌లో డీనాయిజ్ చేయడానికి బదులు, మోడల్ పరిమాణంలో సుమారు పదహారవ వంతు అయిన కంప్రెస్డ్ ప్రాతినిధ్యంలో పని చేస్తుంది, అందుకే జనరేషన్ నిమిషాలు కాదు, సెకన్లలో పూర్తవుతుంది. మూడు భాగాలు ముఖ్యమైనవి. టెక్స్ట్ ఎన్‌కోడర్ (సాధారణంగా CLIP లేదా T5 వేరియంట్) మీ రాసిన ప్రాంప్ట్‌ను అర్థాన్ని క్యాప్చర్ చేసే హై-డైమెన్షనల్ వెక్టర్‌లోకి మాప్ చేస్తుంది, కేవలం కీవర్డ్‌లు మాత్రమే కాదు. U-Net అసలైన డీనాయిజింగ్ పనిని చేస్తుంది, ప్రతి దశలో ఆ టెక్స్ట్ వెక్టర్ ద్వారా కండిషన్ చేయబడుతుంది — కాబట్టి మోడల్ నిరంతరం "ప్రాంప్ట్ లాగా కనిపించే విషయాలు" వైపు నెట్టబడుతోంది. వేరియేషనల్ ఆటోఎన్‌కోడర్ డీకోడర్ తరువాత చివరి లేటెంట్‌ను దృశ్యమాన చిత్రంలోకి విస్తరిస్తుంది. ట్యాటూ-నిర్దిష్ట భాగం ఫైన్-ట్యూనింగ్ సమయంలో జరుగుతుంది. ఓపెన్ వెబ్‌ను చూసిన బేస్ మోడల్ ట్యాటూ కళ యొక్క క్యూరేటెడ్ కార్పస్‌పై మరింత శిక్షణ పొందుతుంది — ఫ్లాష్ షీట్లు, హీల్ చేసిన ఫోటోలు, లైన్ వర్క్, స్టెన్సిల్‌లు — నెట్‌వర్క్ వెయిట్‌లు ట్యాటూల విజువల్ గ్రామర్ వైపు వంగే వరకు: నమ్మకమైన అవుట్‌లైన్‌లు, నియంత్రిత నెగటివ్ స్పేస్, డాట్ షేడింగ్, ఫైన్-లైన్ వర్సెస్ ట్రేడిషనల్ సంప్రదాయాలు. కొన్ని ఉత్పత్తులు స్టైల్ వారీగా LoRA లు (చిన్న స్పెషాల్టీ అడాప్టర్లు) లేయర్ చేస్తాయి. మీరు ఎప్పుడైనా టైప్ చేయడానికి ముందే "సింగిల్ నీడిల్" లేదా "అమెరికన్ ట్రేడిషనల్" అంటే ఏమిటో టూల్‌కు ఇప్పటికే అర్థమవుతుంది. మీరు ప్రస్తుత AI ట్యాటూ టూల్స్‌ను పోల్చాలనుకుంటే, ఆర్కిటెక్చర్ దాదాపు ఎల్లప్పుడూ ఈ స్టాక్ యొక్క కొంత వేరియంట్ — శిక్షణ డేటా మరియు ఇన్ఫరెన్స్ డిఫాల్ట్‌లలో తేడాలు ఉంటాయి.

టూల్ టెక్స్ట్ ప్రాంప్ట్‌ను ట్యాటూ డిజైన్‌లోకి ఎలా అనువదిస్తుంది?

మీ ప్రాంప్ట్ టోకనైజ్ చేయబడి, వెక్టర్‌లోకి ఎంబెడ్ చేయబడి, ప్రతి డీనాయిజింగ్ దశలో U-Net కు కండిషనింగ్‌గా ఫీడ్ చేయబడుతుంది. మోడల్ స్వచ్ఛమైన నాయిజ్ నుండి ప్రారంభించి, ప్రాంప్ట్ వెక్టర్‌కు సరిపోని భాగాలను పునరావృతంగా తొలగించి, సరిపోయే చిత్రాన్ని వదిలిపెడుతుంది.

మాటల నుండి చిత్రానికి అనువాదం పునరుద్ధరణ కాదు. మోడల్ మీ ప్రాంప్ట్‌కు సరిపడే ట్యాటూల డేటాబేస్‌ను శోధించడం లేదు — ఇది నాయిజ్ నుండి ఎప్పుడూ లేని చిత్రాన్ని సృష్టిస్తోంది, శిక్షణ సమయంలో పొందిన గణాంక నమూనాల ద్వారా మార్గనిర్దేశం చేయబడింది. ఆ వ్యత్యాసం ముఖ్యమైనది ఎందుకంటే ఇది బలాలు (మౌలికత, అనంతమైన వైవిధ్యం) మరియు బలహీనతలు (అప్పుడప్పుడు అనాటమీ లోపాలు, ప్రాంప్ట్ డ్రిఫ్ట్) రెండింటినీ వివరిస్తుంది. మెకానికల్‌గా, ప్రాంప్ట్ సబ్-వర్డ్ యూనిట్‌లుగా విరిచే టోకెనైజర్ ద్వారా వెళ్ళి, తరువాత టెక్స్ట్ ఎన్‌కోడర్ ద్వారా వెళ్తుంది, ఇది అర్థపరమైన అర్థాన్ని క్యాప్చర్ చేసే వెక్టర్ సీక్వెన్స్‌ను ఉత్పత్తి చేస్తుంది. "ఒక క్రేన్, ఫైన్-లైన్, నెగటివ్ స్పేస్" అనేది ఒక స్పేస్‌లో కోఆర్డినేట్‌లుగా మారుతుంది, అక్కడ "క్రేన్" ఇతర పొడవైన-మెడ పక్షుల దగ్గర, "ఫైన్-లైన్" ఇతర మినిమలిస్ట్ స్టైల్‌ల దగ్గర, మరియు "నెగటివ్ స్పేస్" ఉద్దేశపూర్వక ఖాళీతో కూడిన కంపోజిషన్‌ల వైపు లాగుతుంది. U-Net ఈ కండిషనింగ్‌ను అందుకుంటుంది మరియు ప్రతి డీనాయిజింగ్ దశలో, ఏ నాయిజ్ నమూనాలను ఉంచాలో, ఏవి తొలగించాలో నిర్ణయించడానికి దాన్ని ఉపయోగిస్తుంది. క్లాసిఫైయర్-ఫ్రీ గైడెన్స్ అనేది మోడల్ మిమ్మల్ని ఎంత అక్షరాలా వివరిస్తుందో నియంత్రించే పరికరం. తక్కువ గైడెన్స్ మృదువైన, మరింత సృజనాత్మక వ్యాఖ్యానాలను ఉత్పత్తి చేస్తుంది; అధిక గైడెన్స్ ప్రాంప్ట్‌కు కఠినమైన కట్టుబాటును బలవంతంగా విధిస్తుంది — కొన్నిసార్లు చిత్ర నాణ్యత ఖర్చుతో. ట్యాటూ-ట్యూన్ చేసిన ఉత్పత్తులు సాధారణంగా మీ కోసం మధ్యలో ఒక విలువను ఎంచుకుంటాయి. శాంప్లింగ్ స్టెప్స్ (సాధారణంగా ఇరవై నుండి యాభై) వేగం మరియు శుద్ధిని ట్రేడ్ చేస్తాయి. సీడ్ — ఒకే పూర్ణాంకం — ప్రారంభ నాయిజ్ ఫీల్డ్‌ను నిర్ణయిస్తుంది; అదే ప్రాంప్ట్ మరియు అదే సీడ్ అదే చిత్రాన్ని ఉత్పత్తి చేస్తాయి, ఇందువల్ల పునరావృత్తి స్లాట్ మెషీన్ కాదు నిర్ణయాత్మకమవుతుంది. మీకు నచ్చిన జనరేషన్ వచ్చిన తర్వాత, మీరు మీ చర్మంపై జనరేటెడ్ ట్యాటూను ప్రివ్యూ చేయవచ్చు లేదా జనరేట్ చేసిన డిజైన్‌ను స్టెన్సిల్‌గా మార్చవచ్చు.

చర్మ-అవగాహన జనరేషన్‌లో ఫోటో ఇన్‌పుట్ ఏ పాత్ర పోషిస్తుంది?

ఫోటో ఇన్‌పుట్ మోడల్‌ను మీ అసలైన అనాటమీపై కండిషన్ చేయడానికి అనుమతిస్తుంది. ప్రాంప్ట్‌తో పాటు చిత్రం ఎన్‌కోడ్ చేయబడుతుంది, కాబట్టి జనరేషన్ శరీర భాగం యొక్క వంపులు, స్కేల్ మరియు ప్లేస్‌మెంట్‌ను గౌరవిస్తుంది — తరువాత చర్మానికి రెట్రోఫిట్ చేయవలసిన ఫ్లాట్ డిజైన్‌ను ఉత్పత్తి చేయడానికి బదులు.

స్వచ్ఛమైన టెక్స్ట్-టు-ఇమేజ్ జనరేషన్ తెల్లని నేపథ్యంపై తేలుతున్న డిజైన్‌ను ఉత్పత్తి చేస్తుంది. మీరు ఏమి కావాలో ఎంచుకోవడానికి ఇది సరే, కానీ ఇది అసలైన ట్యాటూకు ఉన్న అత్యంత ముఖ్యమైన పరిమితిని విస్మరిస్తుంది: అది కూర్చునే శరీరం. చర్మం వంపుగా, అసమానంగా మరియు త్రిమితీయంగా ఉంటుంది. స్క్వేర్ PNG గా సమతుల్యంగా కనిపించే కంపోజిషన్ ఒక ముంజేయి చుట్టూ చుట్టుకున్నప్పుడు లేదా క్లావికిల్ రేఖను అనుసరించినప్పుడు వంకరగా చదవబడవచ్చు. ఫోటో-కండిషన్ జనరేషన్ ఆ అంతరాన్ని మూస్తుంది. వెనుక భాగంలో సిస్టమ్ అనేక పద్ధతుల్లో ఒకదాన్ని ఉపయోగిస్తుంది — ControlNet, IP-Adapter, డెప్త్ కండిషనింగ్, లేదా తక్కువ డీనాయిజింగ్ స్ట్రెంగ్త్‌తో img2img — మీ ఫోటో గురించిన సమాచారాన్ని డిఫ్యూజన్ ప్రక్రియలోకి ఇంజెక్ట్ చేయడానికి. మోడల్ మీ చేయి యొక్క ఆకృతి, మీ వెన్ను యొక్క కండరాల నిర్వచనం, మీ పక్కటెముక యొక్క వాలు చదివి, డిజైన్‌ను తదనుగుణంగా సర్దుబాటు చేయగలదు. మీ బైసెప్‌ను చుట్టేలా అంటే ఒక పాము ఇప్పటికే చుట్టుకున్నట్లు జనరేట్ చేయబడుతుంది; మీ లోపలి ముంజేయి కోసం సైజ్ చేసిన ఒక డిజైన్ సరైన ఆస్పెక్ట్ రేషియోలో జనరేట్ చేయబడుతుంది. ఫోటో ఇన్‌పుట్ యొక్క రెండవ ఉపయోగం వర్చువల్ ట్రై-ఆన్: జనరేషన్‌ను కండిషన్ చేయడానికి బదులు, సిస్టమ్ పర్స్పెక్టివ్ కరెక్షన్, ఒపాసిటీ మ్యాచింగ్ మరియు షాడో హ్యాండ్లింగ్‌తో మీ ఫోటోపై పూర్తి డిజైన్‌ను కంపోజిట్ చేస్తుంది. బుకింగ్ చేయడానికి ముందు ట్యాటూ ఎలా కనిపిస్తుందో ఇలా మీరు చూస్తారు — మరియు మీరు స్క్రీన్‌పై ఇష్టపడిన ఒక ఆలోచన మీరు ఊహించిన ప్లేస్‌మెంట్‌కు తప్పు అని కనుగొనే అత్యంత చవకైన మార్గం ఇది. ఏ వర్క్‌ఫ్లో అయినా డిజైన్ సంభాషణను "నాకు ఈ చిత్రం ఇష్టమా" నుండి "నా మీద ఈ ట్యాటూ నాకు ఇష్టమా" గా మారుస్తుంది, ఇవి చాలా భిన్నమైన ప్రశ్నలు.

AI ట్యాటూ జనరేషన్ ఎక్కడ మానవ కళాకారులకు వెనుకబడుతుంది?

AI ఆలోచన రూపొందించడంలో అద్భుతంగా ఉంటుంది మరియు ఫినిష్ వర్క్‌లో బలహీనంగా ఉంటుంది. ఇది కఠినమైన సమరూపత, ముఖాలు, చేతులు, టెక్స్ట్ మరియు ఒక డిజైన్ ఎలా వయస్సు వస్తుందో, మచ్చ పడుతుందో మరియు చిన్న పరిమాణంలో చదవబడుతుందో అనే ఆచరణాత్మక తీర్పులతో ఇబ్బంది పడుతుంది — ఇవన్నీ సమర్థుడైన మానవ కళాకారుడు అప్రయత్నంగా నిర్వహిస్తాడు.

నిజాయితీగా సమాధానం ఏమిటంటే AI ఒక ఫినిషర్ కంటే బెటర్ బ్రెయిన్‌స్టార్మింగ్ భాగస్వామి. ఇది దిశలను అన్వేషించడంలో, వైవిధ్యాలను జనరేట్ చేయడంలో మరియు అదే ఆలోచనపై వందల వేర్వేరు తీసుకోన్నవి ఎలా ఉంటాయో మీకు చూపించడంలో ఏ మానవుడికంటే వేగంగా ఉంటుంది. ఇది ట్యాటూ డిజైన్ చేయడంలో తొలి దశ గురించిన ప్రతిదాన్ని మారుస్తుంది. కానీ "మంచి జనరేటెడ్ ఇమేజ్" మరియు "మంచి ట్యాటూ" మధ్య అంతరం నిజమైనది, మరియు ఇది నిర్దిష్ట చోట్ల కనిపిస్తుంది. సమరూపత మొదటిది. డిఫ్యూజన్ మోడల్‌లు సంభావ్యతా-ఆధారితమైనవి — అవి ఎడమ కంటి కుడి కంటితో సరిపోలాలని, రెండు పువ్వుల కాండాలు స్పష్టంగా అద్దం పట్టాలని, లేదా మాండలా యొక్క పన్నెండు రంగాలు ఒకేలా ఉండాలని అమలుపరచవు. సరైన ప్రాంప్ట్ మరియు సీడ్‌తో మీరు దగ్గరగా రాగలరు, కానీ సమరూపత డిజైన్ యొక్క పాయింట్ అయితే ఫైల్‌ను క్లీన్ చేసే మానవుడు సాధారణంగా అవసరం. ముఖాలు, చేతులు మరియు చిన్న టెక్స్ట్ అదే కారణంతో రెండవ వైఫల్య మోడ్: అర్థపరంగా దట్టంగా ఉన్న ప్రాంతాలలో అధిక-ఫ్రీక్వెన్సీ వివరాలు డిఫ్యూజన్ అత్యధికంగా హాల్యుసినేట్ చేసే చోట. లోతైన పరిమితి తీర్పు. ఒక డిఫ్యూజన్ మోడల్ ట్యాటూ నయమవడాన్ని ఎప్పుడూ చూడలేదు. వేలిని సైడ్‌లో చాలా సన్నని రేఖలు రెండేళ్ళలో మసకబారుతాయని, తెల్లని సిరా సూర్యరశ్మిలో మాసిపోతుందని, మూడు సెంటీమీటర్లలో దట్టంగా ప్యాక్ చేసిన డిజైన్ సిరా స్ప్రెడ్‌కు దాని వివరాలన్నీ పోగొట్టుకుంటుందని, లేదా బ్యాక్ పీస్ శరీరం ఎలా కదులుతుందో పరిగణలోకి తీసుకోవాలని దాని అవగాహన లేదు. ఇవి ఒక పని చేస్తున్న ట్యాటూ కళాకారుడు మీకు ఆ స్థలంలో చెప్పే విషయాలు. AI ని జనరేట్ చేయడానికి, పునరావృతం చేయడానికి మరియు విజువల్‌ని ధృవీకరించడానికి ఉపయోగించండి — తరువాత ఫైల్‌ను శరీరాలపై సిరా నడవడం చూసి వేల గంటలు వెచ్చించిన వ్యక్తి దగ్గరకు తీసుకెళ్ళండి.

ఇన్‌పుట్ మోడాలిటీ మరియు అవుట్‌పుట్ నాణ్యత వారీగా జెనరేటర్ రకం
జెనరేటర్ రకంఉత్తమ ఇన్‌పుట్సాధారణ అవుట్‌పుట్నిజాయితీ పరిమితి
సాధారణ-ప్రయోజన డిఫ్యూజన్ (SDXL, MJ)పొడవైన, వివరణాత్మక టెక్స్ట్ ప్రాంప్ట్అసలైన ట్యాటూ-స్టైల్ కళాకృతిస్థానిక స్టెన్సిల్ లేదా చర్మ అవగాహన లేదు
ట్యాటూ-ఫైన్-ట్యూన్ చేసిన డిఫ్యూజన్చిన్న ప్రాంప్ట్ + స్టైల్ ట్యాగ్ట్యాటూ-సరైన లైన్‌వర్క్ మరియు షేడింగ్శిక్షణ సెట్‌లోని స్టైల్‌లకు పరిమితం
ఫోటో-కండిషన్ (ControlNet/IP-Adapter)ప్రాంప్ట్ + శరీర ఫోటోప్లేస్‌మెంట్‌కు సరిపడిన డిజైన్ఉపయోగించదగిన రెఫరెన్స్ ఫోటో అవసరం
స్టెన్సిల్ కన్వర్టర్పూర్తయిన డిజైన్ ఇమేజ్క్లీన్ బ్లాక్-లైన్ స్టెన్సిల్ PNGనాణ్యత మూల కాంట్రాస్ట్‌పై ఆధారపడుతుంది

డిఫ్యూజన్ మోడల్దశ-వారీ నాయిజింగ్ ప్రక్రియను తిప్పికొట్టడం నేర్చుకునే ఒక జెనరేటివ్ న్యూరల్ నెట్‌వర్క్. యాదృచ్ఛిక నాయిజ్ నుండి ప్రారంభించి, ఇది నాయిజ్‌ను పునరావృతంగా అంచనా వేసి తొలగిస్తుంది — టెక్స్ట్ లేదా ఇమేజ్ ప్రాంప్ట్ ద్వారా మార్గనిర్దేశం చేయబడి — ఒక సంపూర్ణ చిత్రం ఉద్భవించే వరకు.

ముఖ్య అంశాలు

అంతర్లీన ఆర్కిటెక్చర్
టెక్స్ట్ ఎన్‌కోడర్, U-Net డీనాయిజర్ మరియు VAE డీకోడర్‌తో లేటెంట్ డిఫ్యూజన్
సాధారణ శాంప్లింగ్ స్టెప్స్
ప్రతి చిత్రానికి ఇరవై నుండి యాభై డీనాయిజింగ్ స్టెప్స్
నిర్ణయాత్మకత
అదే ప్రాంప్ట్ మరియు సీడ్ అచ్చంగా అదే చిత్రాన్ని పునరుత్పత్తి చేస్తాయి
ఫోటో కండిషనింగ్
ControlNet, IP-Adapter, లేదా డెప్త్ మ్యాప్‌లు డిజైన్‌ను అసలైన అనాటమీకి సరిపెడతాయి
తెలిసిన బలహీన అంశాలు
కఠినమైన సమరూపత, ముఖాలు, చేతులు, చిన్న టెక్స్ట్ మరియు దీర్ఘకాలిక వయస్సు తీర్పు

తర్వాత చదవండి

మీ తదుపరి టాటూను కనుగొనడానికి సరదా మార్గాలు

రూలెట్

చక్రం తిప్పండి, విధి నిర్ణయించనివ్వండి

లూసిడ్

మీ అంతర్మనస్సులో డిజైన్ ఉంది

పల్స్

మీరు అనుభవించేది ఒక రూపానికి అర్హం

ఆస్ట్రల్

నక్షత్రాలలో రాయబడింది, ఇంక్‌లో చిత్రీకరించబడింది

గ్లిఫ్స్

ఆధునిక సంకేతాల నుండి ప్రాచీన గుర్తులు

కైమెరా

అసంభవ కలయికలు అత్యుత్తమ ఇంక్‌ను తయారు చేస్తాయి

Ink Battle

ఇంక్ ఇంక్‌ను కలుస్తుంది, జనం నిర్ణయిస్తారు

Name That Ink

ఇంక్ చదవండి, మనసును వెల్లడించండి