AI TATTOO GENERATION

איך עובדים מחוללי קעקועים מבוססי בינה מלאכותית

מחולל קעקועים מבוסס בינה מלאכותית הוא מודל דיפוזיה שעבר כוונון עדין על תמונות קעקועים. הוא קורא את הפרומפט שלך, מסיר רעש משדה אקראי במספר שלבים, ומגיע לאמנות מקורית שנעצבת על פי הדפוסים שלמד באימון.

צוות wizard.tattoo · · 5 דק׳ קריאה

נכתב בסיוע בינה מלאכותית ונבדק על ידי הצוות העריכתי של wizard.tattoo לפני הפרסום.

איזו ארכיטקטורת מודל מניעה מחולל קעקועים טיפוסי?

רוב מחוללי הקעקועים מריצים מודל דיפוזיה לאטנטי שעבר כוונון עדין על אמנות קעקועים. מקודד טקסט הופך את הפרומפט שלך לוקטורים, U-Net מסיר רעש מתמונה לאטנטית על פני מספר שלבים, ומפענח ממיר את הלאטנט הסופי לעיצוב נראה לעין.

ארכיטקטורת הדיפוזיה הלאטנטית שולטת כיום בתחום — אותה משפחה שעומדת בבסיס Stable Diffusion, SDXL, פרסומי Midjourney האחרונים ורוב הפורקים הפתוחים לקעקועים. המילה 'לאטנטי' היא המפתח: במקום להסיר רעש ברזולוציה מלאה של פיקסלים, המודל עובד בתוך ייצוג דחוס בגודל פי שישה-עשר קטן יותר, ולכן יצירה מסתיימת תוך שניות ולא דקות. שלושה רכיבים חשובים. מקודד טקסט (בדרך כלל גרסת CLIP או T5) ממפה את הפרומפט הכתוב שלך לוקטור רב-ממדי שלוכד משמעות, לא רק מילות מפתח. ה-U-Net מבצע את עבודת הסרת הרעש בפועל, מותנה בכל שלב על ידי אותו וקטור טקסט — כך שהמודל מונחה כל העת לעבר 'דברים שנראים כמו הפרומפט'. מפענח אוטואנקודר ורייאציוני מרחיב את הלאטנט הסופי בחזרה לתמונה נראית. החלק הספציפי לקעקועים מתרחש במהלך הכוונון העדין. מודל בסיס שראה את האינטרנט הפתוח מאומן עוד על קורפוס אצור של אמנות קעקועים — גיליונות פלאש, תמונות מרואות, עבודות קו, תבניות — עד שמשקולות הרשת מוטות לדקדוק הוויזואלי של קעקועים: קווי מתאר בטוחים, מרחב שלילי מבוקר, הצללת נקודות, המסורות של פיין-ליין לעומת טרדישיונל. מוצרים מסוימים מוסיפים LoRAs (מתאמי התמחות קטנים) לכל סגנון. המאמר המקורי של DDPM ב-<a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> הוא המרפאה הקנונית אם אתם רוצים את המתמטיקה מאחורי תהליך הסרת הרעש. התוצאה המעשית עבורך היא שהכלי כבר מבין מה 'מחט בודדת' או 'אמריקן טרדישיונל' אומרים לפני שאי פעם תקליד אותם.

כיצד הכלי מתרגם פרומפט טקסטואלי לעיצוב קעקוע?

הפרומפט שלך עובר טוקניזציה, הטמעה לוקטור, ומוזן ל-U-Net כתנאי בכל שלב הסרת רעש. המודל מתחיל מרעש טהור ומסיר איטרטיבית את החלקים שאינם תואמים לוקטור הפרומפט, ומשאיר מאחורו תמונה שתואמת.

התרגום ממילים לתמונה הוא לא אחזור. המודל לא מחפש במסד נתונים של קעקועים דברים שתואמים את הפרומפט — הוא יוצר תמונה שמעולם לא הייתה קיימת בעבר, מונחית על ידי הדפוסים הסטטיסטיים שספג במהלך האימון. ההבחנה הזו חשובה כי היא מסבירה גם את החוזקות (מקוריות, וריאציות אינסופיות) וגם את החולשות (תקלות אנטומיה מדי פעם, סחרור פרומפט). מבחינה מכנית, הפרומפט עובר דרך טוקנייזר שמפרק אותו ליחידות תת-מילים, ואז דרך מקודד הטקסט, שמייצר רצף של וקטורים שלוכדים משמעות סמנטית. 'עגור, פיין-ליין, מרחב שלילי' הופך לקואורדינטות במרחב שבו 'עגור' יושב ליד ציפורים ארוכות-צוואר אחרות, 'פיין-ליין' יושב ליד סגנונות מינימליסטיים אחרים, ו'מרחב שלילי' מושך לעבר קומפוזיציות עם ריקנות מכוונת. ה-U-Net מקבל את ההתניה הזו ומשתמש בה כדי להחליט, בכל שלב הסרת רעש, אילו דפוסי רעש לשמור ואילו להסיר. הכוונה חופשית מהמסווג היא המנוף השולט עד כמה המודל מפרש אותך מילולית. כוונון נמוך מייצר פרשנויות רכות ויצירתיות יותר; כוונון גבוה כופה עמידה קפדנית בפרומפט — לפעמים על חשבון איכות התמונה. מוצרים מכוונים לקעקועים בדרך כלל בוחרים ערך אמצעי עבורך.

מה תפקיד קלט התמונה ביצירה מודעת-עור?

קלט תמונה מאפשר למודל להתנות על האנטומיה האמיתית שלך. התמונה מקודדת לצד הפרומפט, כך שהיצירה מכבדת את העקמומיות, הגודל וההצבה של חלק הגוף — במקום לייצר עיצוב שטוח שיש לשייך לעור לאחר מכן.

יצירת טקסט-לתמונה טהורה מייצרת עיצוב הצף על רקע לבן. זה בסדר לבחור מה שאתה רוצה, אבל זה מתעלם מהאילוץ החשוב ביותר שיש לקעקוע אמיתי: הגוף שהוא יושב עליו. העור עקום, אסימטרי ותלת-ממדי. קומפוזיציה שנראית מאוזנת כ-PNG ריבועי יכולה להיראות עקומה ברגע שהיא עוטפת זרוע או עוקבת אחרי קו הבריח. יצירה מותנה-תמונה סוגרת את הפער הזה. מאחורי הקלעים המערכת משתמשת באחת ממספר טכניקות — ControlNet, IP-Adapter, עומק הגברה, או img2img עם עוצמת הסרת רעש נמוכה — כדי להחדיר מידע על התמונה שלך לתהליך הדיפוזיה. המודל יכול לקרוא את קו המתאר של זרועך, הגדרת השרירים של גבך, שיפוע כלוב הצלעות שלך, ולהתאים את העיצוב בהתאם. השימוש השני בקלט תמונה הוא ניסיון-וירטואלי: במקום להתנות את היצירה, המערכת מחברת עיצוב גמור על התמונה שלך עם תיקון פרספקטיבה, התאמת אטימות וטיפול בצל. כך אתה רואה כיצד הקעקוע ייראה לפני ההזמנה — וזוהי הדרך הזולה ביותר לגלות שרעיון שאהבת על המסך שגוי עבור ההצבה שדמיינת.

איפה יצירת קעקועים בבינה מלאכותית עדיין נופלת מאמנים אנושיים?

הבינה המלאכותית מצוינת ברעיונות וחלשה בעבודת גימור. היא מתקשה עם סימטריה קפדנית, פנים, ידיים, טקסט ושיקול הדעת המעשי כיצד עיצוב יישן, יצטלק ויקרא בגדלים קטנים — כל הדברים שאמן אנושי מוכשר מטפל בהם בצורה אוטומטית.

התשובה הכנה היא שהבינה המלאכותית היא שותף חשיבה טובה יותר מאשר גמרן. היא מהירה יותר מכל בן אדם בחקירת כיוונים, יצירת וריאציות, ובהראות לך כמה מאה נסיונות שונים על אותו הרעיון נראים. זה משנה הכל בשלב המוקדם של עיצוב קעקוע. אבל הפער בין 'תמונה שנוצרה טובה' ל'קעקוע טוב' הוא אמיתי, והוא מתגלה במקומות ספציפיים. סימטריה היא הראשונה. מודלים של דיפוזיה הם הסתברותיים — הם לא אוכפים שהעין השמאלית תואמת לימנית, ששני גבעולי פרחים משתקפים בצורה נקייה, או שה-12 מגזרים של מנדלה זהים. אפשר להתקרב עם הפרומפט והזרע הנכונים, אבל ניקוי קובץ אנושי בדרך כלל הכרחי אם סימטריה היא עניין הנקודה של היצירה. פנים, ידיים וטקסט קטן הם מצב הכשל השני מאותה סיבה: פרטים בתדר גבוה באזורים צפופים סמנטית הם המקום שבו הדיפוזיה הוצגת לרוב. המגבלה העמוקה יותר היא שיקול דעת. מודל דיפוזיה מעולם לא צפה בריפוי קעקוע. הוא לא יודע שקווים דקים מאוד על צד האצבע יטשטשו תוך שנתיים, שדיו לבן דוהה בשמש, שעיצוב ארוז בצפיפות בשלושה סנטימטרים יאבד את כל פרטיו להפצת דיו, או שיצירת גב צריכה לקחת בחשבון כיצד הגוף זז.

סוג מחולל לפי מודאליות קלט ואיכות פלט
סוג מחוללקלט מיטביפלט טיפוסימגבלה כנה
דיפוזיה כללית (SDXL, MJ)פרומפט טקסט ארוך ומפורטאמנות קעקועים מקוריתללא מודעות סטנסיל או עור
דיפוזיה מכוונת קעקועיםפרומפט קצר + תג סגנוןקווים והצללות נכונים לקעקועמוגבל לסגנונות בסט האימון
מותנה-תמונה (ControlNet/IP-Adapter)פרומפט + תמונת גוףעיצוב מותאם להצבהדורש תמונת התייחסות שמישה
ממיר סטנסילתמונת עיצוב גמורהPNG סטנסיל קו-שחור נקיאיכות תלויה בניגודיות המקור

מודל דיפוזיהרשת עצבית גנרטיבית שלומדת להפוך תהליך רעש שלב-אחרי-שלב. החל מרעש אקראי, היא מנבאת ומסירה רעש באיטרציה — מונחית על ידי טקסט או פרומפט תמונה — עד שמתגלה תמונה קוהרנטית.

עובדות מרכזיות

ארכיטקטורה בסיסית
דיפוזיה לאטנטית עם מקודד טקסט, U-Net מסיר-רעש, ומפענח VAE
שלבי דגימה טיפוסיים
עשרים עד חמישים שלבי הסרת רעש לתמונה
דטרמיניזם
אותו פרומפט וזרע מייצרים אותה תמונה בדיוק
התניית תמונה
ControlNet, IP-Adapter, או מפות עומק מתאימות עיצוב לאנטומיה אמיתית
נקודות חולשה ידועות
סימטריה קפדנית, פנים, ידיים, טקסט קטן ושיקול דעת הזדקנות לטווח ארוך

קראו בהמשך

דרכים משחקיות לגלות את הקעקוע הבא שלכם

Roulette

סובבו את הגלגל, תנו לגורל להחליט

Lucid

התת-מודע שלך מחזיק את העיצוב

Pulse

מה שאתם מרגישים ראוי לצורה

Astral

כתוב בכוכבים, מצויר בדיו

Glyphs

סימנים עתיקים מסמלים מודרניים

Chimera

חיבורים לא צפויים יוצרים את הדיו הכי מושלם

Ink Battle

דיו מול דיו, הקהל מחליט

Name That Ink

קראו את הדיו, גלו את המחשבה