AI TATTOO GENERATION

Máy tạo hình xăm AI hoạt động như thế nào

Máy tạo hình xăm AI là một mô hình khuếch tán được tinh chỉnh trên tập dữ liệu hình xăm. Nó đọc câu lệnh của bạn, loại bỏ nhiễu từ một trường nhiễu ngẫu nhiên qua nhiều bước, và tạo ra tác phẩm nghệ thuật gốc được định hình bởi các mẫu hình nó đã học trong quá trình huấn luyện.

Đội ngũ wizard.tattoo · · 11 phút đọc

Bản thảo được soạn với sự hỗ trợ của AI và được đội ngũ biên tập của wizard.tattoo duyệt trước khi xuất bản.

Kiến trúc mô hình nào cung cấp sức mạnh cho một máy tạo hình xăm AI điển hình?

Hầu hết các máy tạo hình xăm sử dụng mô hình khuếch tán tiềm ẩn được tinh chỉnh trên nghệ thuật hình xăm. Bộ mã hóa văn bản chuyển câu lệnh của bạn thành các vector, U-Net loại nhiễu ảnh tiềm ẩn qua nhiều bước, và bộ giải mã chuyển đổi tiềm ẩn cuối cùng thành thiết kế hiển thị.

Kiến trúc thống trị hiện nay là khuếch tán tiềm ẩn — cùng họ mô hình làm nền tảng cho Stable Diffusion, SDXL, các phiên bản gần đây của Midjourney, và hầu hết các nhánh hình xăm cụ thể dạng mã nguồn mở. "Tiềm ẩn" là từ khóa: thay vì loại nhiễu ở độ phân giải pixel đầy đủ, mô hình làm việc bên trong một biểu diễn nén có kích thước khoảng một phần mười sáu so với ảnh gốc, đây là lý do tại sao một lần tạo ảnh hoàn thành trong vài giây thay vì vài phút. Ba thành phần quan trọng cần chú ý. Bộ mã hóa văn bản — thường là biến thể CLIP hoặc T5 — ánh xạ câu lệnh viết của bạn vào một vector nhiều chiều nắm bắt ý nghĩa, không chỉ là từ khóa đơn thuần. U-Net thực hiện công việc loại nhiễu thực tế, được điều chỉnh ở mỗi bước bởi vector văn bản đó — vì vậy mô hình liên tục được hướng dẫn về phía "những thứ trông giống câu lệnh". Bộ giải mã autoencoder biến đổi sau đó mở rộng tiềm ẩn cuối cùng trở lại thành ảnh hiển thị. Phần đặc thù hình xăm xảy ra trong quá trình tinh chỉnh. Một mô hình cơ bản đã thấy toàn bộ web mở được tiếp tục huấn luyện trên một tập dữ liệu hình xăm nghệ thuật được tuyển chọn — tờ flash, ảnh đã lành, đường nét, stencil — cho đến khi các trọng số của mạng lưới thiên về ngữ pháp thị giác của hình xăm: đường viền tự tin, khoảng âm bản có kiểm soát, bóng đổ chấm, các quy ước của fine-line so với traditional. Một số sản phẩm thêm lớp LoRA (bộ điều hợp chuyên biệt nhỏ) theo từng phong cách. Bài báo DDPM gốc tại <a href="https://arxiv.org/abs/2006.11239">arxiv.org/abs/2006.11239</a> là tài liệu tham khảo chuẩn nếu bạn muốn hiểu toán học đằng sau quá trình loại nhiễu. Kết quả thực tế cho bạn là công cụ đã hiểu "single needle" hay "American traditional" có nghĩa là gì trước khi bạn gõ chúng. Nếu bạn muốn <a href="/blog/best-ai-tattoo-generator">so sánh các công cụ hình xăm AI hiện tại</a>, kiến trúc hầu như luôn là một biến thể nào đó của bộ công cụ này — sự khác biệt nằm ở dữ liệu huấn luyện và các giá trị mặc định suy luận.

Công cụ dịch câu lệnh văn bản thành thiết kế hình xăm như thế nào?

Câu lệnh của bạn được token hóa, nhúng vào vector, và đưa vào U-Net như điều kiện hóa ở mỗi bước loại nhiễu. Mô hình bắt đầu từ nhiễu thuần túy và lặp đi lặp lại loại bỏ các phần không khớp với vector câu lệnh, để lại một ảnh phù hợp.

Việc dịch từ chữ sang hình không phải là truy xuất. Mô hình không tìm kiếm trong cơ sở dữ liệu các hình xăm để tìm những thứ phù hợp với câu lệnh của bạn — nó đang tạo ra một ảnh chưa từng tồn tại trước đây, được hướng dẫn bởi các mẫu thống kê mà nó đã hấp thụ trong quá trình huấn luyện. Sự phân biệt đó quan trọng vì nó giải thích cả điểm mạnh (tính nguyên bản, biến đổi vô hạn) lẫn điểm yếu (đôi khi có lỗi giải phẫu, câu lệnh bị trôi dạt). Về mặt cơ học, câu lệnh đi qua tokenizer phân tách nó thành các đơn vị từ con, sau đó qua bộ mã hóa văn bản, tạo ra một chuỗi vector nắm bắt ý nghĩa ngữ nghĩa. "Hạc, fine-line, khoảng âm bản" trở thành tọa độ trong không gian nơi "hạc" nằm gần các loài chim cổ dài khác, "fine-line" nằm gần các phong cách tối giản khác, và "khoảng âm bản" kéo về phía các bố cục có độ trống có chủ đích. U-Net nhận điều kiện hóa này và sử dụng nó để quyết định, ở mỗi bước loại nhiễu, những mẫu nhiễu nào cần giữ lại và những mẫu nào cần loại bỏ. Hướng dẫn không có classifier là đòn bẩy kiểm soát mức độ nghĩa đen mà mô hình giải thích bạn. Hướng dẫn thấp tạo ra các diễn giải mềm mại, sáng tạo hơn; hướng dẫn cao buộc tuân thủ nghiêm ngặt câu lệnh — đôi khi gây hại cho chất lượng ảnh. Các sản phẩm được điều chỉnh cho hình xăm thường chọn một giá trị trung bình cho bạn. Bước lấy mẫu — thường từ hai mươi đến năm mươi — đánh đổi tốc độ lấy độ tinh tế. Hạt giống — một số nguyên duy nhất — xác định trường nhiễu bắt đầu; cùng câu lệnh và cùng hạt giống tạo ra cùng ảnh, đây là cách lặp lại trở nên xác định thay vì giống như máy đánh bạc. Sau khi có được kết quả tạo ảnh bạn thích, bạn có thể <a href="/tryon">xem trước hình xăm được tạo trên da</a> hoặc <a href="/stencil">chuyển đổi thiết kế được tạo thành stencil</a> để mang đến cho nghệ sĩ của bạn.

Đầu vào ảnh đóng vai trò gì trong việc tạo ảnh có nhận thức về da?

Đầu vào ảnh cho phép mô hình điều kiện hóa theo giải phẫu thực tế của bạn. Ảnh được mã hóa cùng với câu lệnh, vì vậy quá trình tạo ảnh tôn trọng các đường cong, tỷ lệ và vị trí của bộ phận cơ thể — thay vì tạo ra một thiết kế phẳng phải được điều chỉnh cho da sau này.

Việc tạo ảnh từ văn bản thuần túy tạo ra một thiết kế nổi trên nền trắng. Điều đó ổn để chọn những gì bạn muốn, nhưng nó bỏ qua ràng buộc quan trọng nhất mà một hình xăm thực sự có: cơ thể mà nó ngồi trên. Da có độ cong, không đối xứng và ba chiều. Một bố cục trông cân đối như một ảnh PNG vuông có thể đọc là méo một khi nó bao quanh cẳng tay hoặc theo đường xương đòn. Việc tạo ảnh có điều kiện theo ảnh khắc phục khoảng cách đó. Đằng sau hậu trường, hệ thống sử dụng một trong một số kỹ thuật — ControlNet, IP-Adapter, điều kiện hóa theo độ sâu, hoặc img2img với cường độ loại nhiễu thấp — để đưa thông tin về ảnh của bạn vào quá trình khuếch tán. Mô hình có thể đọc đường viền của cánh tay, sự định nghĩa cơ bắp của lưng, độ dốc của xương sườn, và điều chỉnh thiết kế cho phù hợp. Một con rắn được thiết kế để bao quanh bắp tay của bạn được tạo ra đã bao quanh; một miếng có kích thước cho mặt trong cẳng tay của bạn được tạo ra với tỷ lệ khung hình chính xác. Cách sử dụng thứ hai của đầu vào ảnh là thử ảo: thay vì điều kiện hóa quá trình tạo ảnh, hệ thống ghép một thiết kế đã hoàn chỉnh lên ảnh của bạn với hiệu chỉnh phối cảnh, khớp độ mờ và xử lý bóng. Đây là cách bạn thấy hình xăm trông như thế nào trước khi đặt lịch — và đây là cách rẻ nhất để phát hiện rằng một ý tưởng bạn yêu thích trên màn hình lại sai cho vị trí bạn đã tưởng tượng. Cả hai quy trình đều chuyển cuộc trò chuyện thiết kế từ "tôi có thích bức tranh này không" sang "tôi có thích hình xăm này trên tôi không" — đây là những câu hỏi rất khác nhau.

AI tạo hình xăm còn kém xa nghệ sĩ con người ở đâu?

AI xuất sắc ở giai đoạn lên ý tưởng và yếu ở công việc hoàn thiện. Nó gặp khó khăn với sự đối xứng nghiêm ngặt, khuôn mặt, bàn tay, chữ viết, và phán đoán thực tế về cách thiết kế sẽ lão hóa, sẹo và đọc ở kích thước nhỏ — tất cả những điều mà một nghệ sĩ thạo nghề xử lý theo bản năng.

Câu trả lời trung thực là AI là một đối tác brainstorm tốt hơn là một người hoàn thiện. Nó nhanh hơn bất kỳ con người nào trong việc khám phá các hướng, tạo các biến thể, và cho bạn thấy trăm phiên bản khác nhau của cùng một ý tưởng trông như thế nào. Điều đó thay đổi mọi thứ về giai đoạn đầu của việc thiết kế hình xăm. Nhưng khoảng cách giữa "ảnh được tạo tốt" và "hình xăm tốt" là có thực, và nó xuất hiện ở những chỗ cụ thể. Đối xứng là điều đầu tiên. Các mô hình khuếch tán có tính xác suất — chúng không đảm bảo rằng mắt trái khớp với mắt phải, rằng hai thân hoa phản chiếu sạch sẽ, hay rằng mười hai cung của một mandala là giống hệt nhau. Bạn có thể đạt được kết quả gần đúng với câu lệnh và hạt giống phù hợp, nhưng một con người làm sạch file thường là cần thiết nếu đối xứng là điểm cốt lõi của tác phẩm. Khuôn mặt, bàn tay và chữ nhỏ là chế độ thất bại thứ hai vì cùng lý do: chi tiết tần số cao trong các vùng dày đặc về ngữ nghĩa là nơi khuếch tán hay ảo giác nhất. Hạn chế sâu hơn là khả năng phán đoán. Một mô hình khuếch tán chưa bao giờ xem một hình xăm lành. Nó không biết rằng các đường rất mỏng ở cạnh ngón tay sẽ mờ trong vòng hai năm, rằng mực trắng phai dưới ánh nắng, rằng một thiết kế được đóng gói chặt chẽ ở ba centimet sẽ mất tất cả chi tiết do mực lan, hoặc rằng một miếng lưng cần tính đến cách cơ thể di chuyển. Đó là những điều mà một nghệ sĩ xăm hình đang làm việc sẽ nói với bạn ngay lập tức. Hãy sử dụng AI để tạo, lặp lại và xác nhận hình ảnh — sau đó mang file đến một người đã dành hàng nghìn giờ quan sát mực hoạt động trên cơ thể, và để họ làm phần mà máy móc không thể.

Loại máy tạo theo phương thức đầu vào và chất lượng đầu ra
Loại máy tạoĐầu vào tốt nhấtĐầu ra điển hìnhHạn chế thực tế
Khuếch tán đa năng (SDXL, MJ)Câu lệnh văn bản dài, chi tiếtTác phẩm nghệ thuật phong cách hình xăm gốcKhông có nhận thức về stencil hay da tự nhiên
Khuếch tán tinh chỉnh cho hình xămCâu lệnh ngắn + thẻ phong cáchĐường nét và bóng đổ đúng chuẩn hình xămBị giới hạn trong các phong cách thuộc tập huấn luyện
Có điều kiện theo ảnh (ControlNet/IP-Adapter)Câu lệnh + ảnh cơ thểThiết kế phù hợp với vị trí đặtYêu cầu ảnh tham chiếu có thể sử dụng được
Bộ chuyển đổi stencilẢnh thiết kế đã hoàn chỉnhPNG stencil đường đen sạchChất lượng phụ thuộc vào độ tương phản nguồn

mô hình khuếch tánMạng nơ-ron tạo sinh học cách đảo ngược quy trình thêm nhiễu từng bước. Bắt đầu từ nhiễu ngẫu nhiên, nó lặp đi lặp lại dự đoán và loại bỏ nhiễu — được hướng dẫn bởi câu lệnh văn bản hoặc ảnh — cho đến khi một ảnh mạch lạc xuất hiện.

Thông tin chính

Kiến trúc cơ bản
Khuếch tán tiềm ẩn với bộ mã hóa văn bản, U-Net loại nhiễu, và bộ giải mã VAE
Bước lấy mẫu điển hình
Hai mươi đến năm mươi bước loại nhiễu mỗi ảnh
Tính xác định
Cùng câu lệnh và hạt giống tái tạo hoàn toàn cùng ảnh
Điều kiện hóa theo ảnh
ControlNet, IP-Adapter, hoặc bản đồ độ sâu phù hợp thiết kế với giải phẫu thực tế
Điểm yếu đã biết
Đối xứng nghiêm ngặt, khuôn mặt, bàn tay, chữ nhỏ, và phán đoán lão hóa dài hạn

Đọc tiếp

Những cách thú vị để khám phá hình xăm tiếp theo của bạn

Roulette

Quay bánh xe, để số phận quyết định

Lucid

Tiềm thức bạn ẩn chứa thiết kế

Pulse

Cảm xúc của bạn xứng đáng có hình hài

Astral

Viết trên các vì sao, vẽ bằng mực xăm

Glyphs

Dấu ấn cổ xưa từ biểu tượng hiện đại

Chimera

Sự kết hợp bất ngờ tạo nên mực xăm tuyệt nhất

Ink Battle

Mực đọ mực, đám đông quyết định

Name That Ink

Đọc mực xăm, giải mã tâm trí