Startup AI Black Forest Labs vừa chính thức ra mắt công ty và giới thiệu bộ mô hình AI tạo ảnh từ văn bản đầu tiên mang tên FLUX.1.
Công ty tạo ra FLUX.1 có trụ sở tại Đức này được sáng lập bởi các nhà nghiên cứu từng phát triển công nghệ đằng sau Stable Diffusion và phát minh ra kỹ thuật latent diffusion, với mục tiêu tạo ra các công nghệ AI tiên tiến cho hình ảnh và video.
Sự ra mắt của FLUX.1 diễn ra khoảng bảy tuần sau khi Stability AI gặp khó khăn với phiên bản Stable Diffusion 3 Medium vào giữa tháng Sáu. Sản phẩm của Stability AI bị chỉ trích mạnh mẽ bởi cộng đồng người dùng vì khả năng tạo hình ảnh giải phẫu con người kém, với nhiều ví dụ về chi tiết cơ thể bị méo mó được chia sẻ trên mạng xã hội. Trước đó, ba kỹ sư chủ chốt của Stability AI – Robin Rombach, Andreas Blattmann, và Dominik Lorenz – đã rời khỏi công ty và cùng thành lập Black Forest Labs với Patrick Esser, đồng phát triển latent diffusion.

Black Forest Labs đã ra mắt ba mô hình FLUX.1 tạo ảnh từ văn bản: phiên bản thương mại cao cấp “pro”, phiên bản trung bình “dev” với trọng lượng mở cho mục đích phi thương mại, và phiên bản nhanh “schnell” cũng với trọng lượng mở. Black Forest Labs tuyên bố rằng các mô hình của họ vượt trội hơn các lựa chọn hiện có như Midjourney và DALL-E về chất lượng hình ảnh và độ chính xác với văn bản.
Trong trải nghiệm thực tế, hai mô hình cao cấp FLUX.1 có chất lượng tương đương với DALL-E 3 của OpenAI về độ trung thực với văn bản và có tính chân thực gần giống với Midjourney 6. Đây là sự cải tiến đáng kể so với Stable Diffusion XL, phiên bản lớn cuối cùng của nhóm dưới tên Stability AI.
Mô hình FLUX.1 sử dụng kiến trúc “lai” kết hợp kỹ thuật transformer và diffusion, được mở rộng lên 12 tỷ tham số. Black Forest Labs đã cải tiến các mô hình diffusion trước đây bằng cách kết hợp các kỹ thuật như flow matching và các tối ưu hóa khác.
Black Forest Labs, dù là công ty mới, đã thu hút được sự đầu tư từ nhiều nhà đầu tư lớn. Công ty vừa kết thúc vòng gọi vốn Series Seed trị giá 31 triệu USD do Andreessen Horowitz dẫn đầu, cùng với các khoản đầu tư từ General Catalyst và MätchVC. Công ty cũng có các cố vấn nổi tiếng như Michael Ovitz, cựu Chủ tịch Disney và nhà nghiên cứu AI Matthias Bethge.
Công ty bày tỏ: “Chúng tôi tin rằng AI tạo sinh sẽ là nền tảng của tất cả các công nghệ tương lai. Bằng cách làm cho các mô hình của chúng tôi có sẵn cho đông đảo công chúng, chúng tôi muốn mang lại lợi ích của công nghệ này đến mọi người, giáo dục cộng đồng và tăng cường niềm tin vào sự an toàn của các mô hình này.”

Hiện tại, Black Forest Labs tập trung vào việc tạo ảnh từ văn bản, nhưng công ty dự định mở rộng sang lĩnh vực tạo video. Công ty cho biết FLUX.1 sẽ là nền tảng cho một mô hình tạo video từ văn bản mới đang được phát triển, cạnh tranh với OpenAI’s Sora, Runway’s Gen-3 Alpha và Kuaishou’s Kling. “Các mô hình video của chúng tôi sẽ mở ra khả năng tạo và chỉnh sửa chính xác với độ phân giải cao và tốc độ chưa từng có,” theo thông báo của Black Forest Labs.