AI TATTOO GENERATION

AI刺青生成器的運作原理

AI刺青生成器是一種在刺青圖像上經過微調的擴散模型。它讀取您的提示詞,在多個步驟中對隨機噪聲場進行去噪,最終生成由訓練過程中所學習的模式塑造的原創藝術作品。

wizard.tattoo 團隊 · · 2 分鐘閱讀

本文在 AI 協助下起草,並於發布前由 wizard.tattoo 編輯團隊審閱。

典型的AI刺青生成器使用哪種模型架構?

大多數刺青生成器運行的是在刺青藝術上經過微調的潛在擴散模型。文字編碼器將您的提示詞轉化為向量,U-Net在多個步驟中對潛在圖像進行去噪,解碼器將最終的潛在表示轉換為可見的設計。

當今主流的架構是潛在擴散模型——與Stable Diffusion、SDXL、Midjourney近期發布版本以及大多數開源刺青專用分支所依托的架構屬於同一家族。「潛在」是關鍵詞:模型不是在完整像素解析度下進行去噪,而是在大約十六分之一大小的壓縮表示空間中工作,這就是為什麼生成可以在幾秒鐘內完成而非幾分鐘。 三個元件至關重要。文字編碼器(通常是CLIP或T5的變體)將您的書面提示詞映射到一個捕捉語意而非僅僅關鍵詞的高維向量。U-Net執行實際的去噪工作,在每個步驟中都以該文字向量為條件——因此模型在每個步驟都在被不斷引導向「看起來像提示詞的內容」靠攏。變分自動編碼器解碼器隨後將最終的潛在表示擴展回可見圖像。 刺青專用的部分發生在微調過程中。一個在開放網路上訓練過的基礎模型會在精心策劃的刺青藝術語料庫上進一步訓練——包括閃光圖紙、癒合後的照片、線條作品、模板等——直到網路的權重偏向於刺青的視覺語法:自信的輪廓線、受控的負空間、點畫、細線風格與傳統風格的慣例。一些產品還為每種風格疊加了LoRA(小型專用適配器)。如果您想了解去噪過程背後的數學原理,<a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a>上的原始DDPM論文是權威參考。對您而言實際的結果是,在您輸入「單針」或「美式傳統」之前,工具已經理解了它們的含義。如果您想<a href="/blog/best-ai-tattoo-generator">比較當前的AI刺青工具</a>,其架構幾乎總是這個技術棧的某個變體——差異在於訓練資料和推理預設設定。

工具如何將文字提示詞轉化為刺青設計?

您的提示詞被標記化,嵌入到向量中,並在每個去噪步驟中作為條件輸入U-Net。模型從純噪聲開始,迭代地去除與提示詞向量不匹配的部分,留下與之匹配的圖像。

從文字到圖像的轉化不是檢索過程。模型並不是在資料庫中搜尋與您的提示詞匹配的刺青——它是在根據訓練過程中吸收的統計模式生成一張從未存在過的圖像。這個區別之所以重要,是因為它解釋了優勢(原創性、無限變化)和劣勢(偶爾出現的解剖學問題、提示詞漂移)兩個方面。 從技術上說,提示詞經過分詞器分解為子詞單元,然後通過文字編碼器,產生捕捉語意含義的向量序列。「一隻鶴,細線風格,負空間」變成一個空間中的座標,其中「鶴」靠近其他長頸鳥類,「細線」靠近其他極簡主義風格,「負空間」向具有刻意空白感的構圖方向牽引。U-Net接收這種條件輸入,並在每個去噪步驟中決定保留哪些噪聲模式、去除哪些。 無分類器引導是控制模型字面解讀程度的槓桿。低引導產生更柔和、更具創意的解讀;高引導強制嚴格遵守提示詞——有時以犧牲圖像質量為代價。刺青調優的產品通常為您選擇一個中間值。採樣步驟(通常為二十到五十步)在速度和精細度之間進行權衡。種子值——一個整數——決定起始噪聲場;相同的提示詞和相同的種子會產生相同的圖像,這就是迭代如何變得可預測而非像吃角子老虎機一樣隨機。一旦找到您喜歡的生成結果,您可以<a href="/tryon">在您的皮膚上預覽生成的刺青</a>或<a href="/stencil">將生成的設計轉換為模板</a>帶給您的刺青師。

照片輸入在皮膚感知生成中扮演什麼角色?

照片輸入讓模型能夠以您真實的解剖結構為條件。圖像與提示詞一起被編碼,因此生成過程會尊重身體部位的曲線、比例和位置——而不是生成一個需要事後適配到皮膚上的平面設計。

純文字到圖像的生成會產生一個飄浮在白色背景上的設計。對於選擇您想要的內容來說沒有問題,但它忽略了真實刺青所具有的最重要約束:它所依附的身體。皮膚是彎曲的、不對稱的、三維的。一個看起來平衡的正方形PNG,一旦纏繞在前臂上或沿著鎖骨線排列,可能看起來就歪斜了。 照片條件生成彌合了這個差距。在幕後,系統使用幾種技術之一——ControlNet、IP-Adapter、深度條件,或低去噪強度的img2img——將您照片的資訊注入擴散過程。模型可以讀取您手臂的輪廓、背部的肌肉線條、肋骨的斜度,並相應地調整設計。一條打算纏繞在您肱二頭肌上的蛇,生成時就已經在纏繞;一個為您前臂內側設計的作品,生成時就具有正確的長寬比。 照片輸入的第二個用途是虛擬試穿:系統不是為生成新增條件,而是通過透視校正、不透明度匹配和陰影處理,將完成的設計合成到您的照片上。這就是您在預約前看到刺青效果的方式——也是以最低成本發現您在螢幕上喜歡的想法對您設想的位置並不合適的方式。無論哪種工作流程,都將設計對話從「我喜歡這張圖片嗎」轉變為「我喜歡這個刺青在我身上的效果嗎」,這是非常不同的兩個問題。

AI刺青生成在哪些方面仍然不如人類藝術家?

AI擅長構思,但在收尾工作上較弱。它在嚴格對稱、臉部、手部、文字以及設計如何隨時間老化、結痂和在小尺寸下顯示等實踐判斷方面存在困難——這些都是有能力的人類藝術家憑直覺處理的事情。

誠實的答案是,AI是比完成者更好的腦力激盪夥伴。在探索方向、生成變體、展示同一想法的一百種不同詮釋方面,它比任何人都要快。這改變了設計刺青早期階段的一切。但「好的生成圖像」與「好的刺青」之間的差距是真實存在的,它會在特定的地方顯現出來。 對稱性是第一個問題。擴散模型是機率性的——它們不能強制確保左眼與右眼匹配,兩根花莖清晰地映射,或者曼陀羅的十二個扇區完全相同。通過正確的提示詞和種子可以接近,但如果對稱性是作品的重點,通常需要人工清理檔案。出於同樣的原因,臉部、手部和小文字是第二類失敗模式:語意密集區域中的高頻細節是擴散最常產生幻覺的地方。 更深層的侷限是判斷力。擴散模型從未看過刺青癒合的過程。它不知道手指側面非常細的線條會在兩年內變得模糊,白色墨水在陽光下會褪色,三公分處密集排列的設計會因為墨水擴散而失去所有細節,或者背部刺青需要考慮身體如何移動。這些都是在職刺青藝術家會當場告訴您的事情。用AI來生成、迭代和驗證視覺效果——然後將檔案帶給一個花了數千小時觀察墨水在皮膚上行為的人,讓他們來完成機器無法完成的部分。

按輸入模式和輸出質量分類的生成器類型
生成器類型最佳輸入典型輸出真實侷限
通用擴散模型(SDXL、MJ)長而詳細的文字提示詞原創刺青風格藝術作品無原生模板或皮膚感知功能
刺青微調擴散模型簡短提示詞+風格標籤刺青標準的線條和陰影僅限於訓練集中的風格
照片條件型(ControlNet/IP-Adapter)提示詞+身體照片適合位置的設計需要可用的參考照片
模板轉換器完成的設計圖像乾淨的黑線模板PNG質量取決於來源圖像的對比度

擴散模型一種學習逆轉逐步加噪過程的生成神經網路。從隨機噪聲開始,在文字或圖像提示詞的引導下,迭代地預測並去除噪聲——直到出現連貫的圖像。

重點摘要

底層架構
具有文字編碼器、U-Net去噪器和VAE解碼器的潛在擴散模型
典型採樣步驟
每張圖像二十至五十個去噪步驟
確定性
相同的提示詞和種子可以精確再現相同的圖像
照片條件
ControlNet、IP-Adapter或深度圖將設計適配到真實解剖結構
已知薄弱點
嚴格對稱、臉部、手部、小文字和長期老化判斷

繼續閱讀

用趣味方式探索你的下一個刺青

輪盤

轉動輪盤,讓命運決定

夢境

你的潛意識蘊藏著設計靈感

脈動

你的感受值得被賦予形體

星象

寫在星辰之上,繪於墨跡之中

符文

現代符號化為古老印記

奇美拉

最奇妙的結合造就最棒的刺青

墨戰

墨與墨的對決,由群眾裁定

猜猜這刺青

解讀墨跡,洞悉心思