Tóm lại: Cho dù bạn yêu thích hay ghét chúng, các công cụ AI tổng quát như ChatGPT và Stable Diffusion luôn sẵn sàng tồn tại và phát triển với tốc độ nhanh chóng. Các nhà nghiên cứu đang làm việc trên các triển khai mới đang dần trở thành tiêu điểm, chẳng hạn như một công cụ mới có tên là DragGAN trông giống như công cụ Warp của Photoshop trên steroid.
Đến giờ, ngay cả những người theo dõi tin tức công nghệ bình thường nhất cũng đã quen thuộc với các công cụ AI tổng quát như ChatGPT, Stable Diffusion, Midjourney và DALL-E. Big Tech đang chạy đua để phát triển các mô hình ngôn ngữ lớn tốt nhất và đưa chúng vào mọi phần mềm hoặc dịch vụ web mà chúng ta sử dụng và một làn sóng khởi nghiệp đang làm việc trên các công cụ AI chuyên dụng cho nhiều trường hợp sử dụng thích hợp.
Nhiều công cụ trong số này có thể tạo ra các hình ảnh hoặc văn bản hữu ích bằng cách sử dụng các lời nhắc đơn giản mô tả những gì người dùng muốn tìm hiểu hoặc loại công việc họ đang cố gắng đạt được. Khi nó hoạt động, điều này làm cho các dịch vụ như ChatGPT và DALL-E giống như ma thuật. Khi điều đó không xảy ra, chúng ta sẽ được nhắc nhở về khoảng cách mà AI có thể thay thế sự sáng tạo của con người, nếu có. Trên thực tế, nhiều công cụ trong số này được “đào tạo” trên các tác phẩm do con người tạo ra và cần có sự giám sát của con người để cải thiện đầu ra của chúng ở mức có ý nghĩa.
Bạn đã nghĩ về việc ‘kéo’ các đối tượng trong hình ảnh một cách tương tác chưa? Của chúng ta #SIGGRAPH2023 công việc #KéoGAN làm cho điều này trở thành sự thật!ðÂ¥³
Giấy: https://t.co/B3qC0kl1IT
Trang dự án: https://t.co/ZqAEPHNMNF https://t.co/UQXarwl481 pic.twitter.com/LrWjEsIVHs– Xingang Pan (@XingangP) 19 Tháng Năm, 2023
Điều đó nói rằng, nghiên cứu AI mới cho thấy tiến độ vẫn đang được thực hiện với tốc độ nhanh chóng, đặc biệt là trong lĩnh vực xử lý hình ảnh. Một nhóm các nhà khoa học từ Google, MIT, Đại học Pennsylvania và Viện Tin học Max Planck ở Đức đã công bố một giấy nêu chi tiết một công cụ thử nghiệm có thể giúp chỉnh sửa hình ảnh dễ dàng hơn và dễ tiếp cận hơn đối với những người bình thường.
Để biết được những gì có thể thực hiện được với công cụ mới, bạn có thể thay đổi đáng kể diện mạo của một người hoặc một đối tượng bằng cách chỉ cần nhấp và kéo vào một tính năng cụ thể. Bạn cũng có thể làm những việc như thay đổi biểu cảm trên khuôn mặt ai đó, sửa đổi trang phục của người mẫu thời trang hoặc xoay đối tượng trong ảnh như thể đó là một mô hình 3D. Các bản trình diễn video chắc chắn rất ấn tượng, mặc dù công cụ này không có sẵn cho công chúng khi viết bài này.
Điều này có thể trông giống như Photoshop trên steroid, nhưng nó đã tạo ra đủ sự quan tâm để gửi cho nhóm nghiên cứu trang mạng va chạm. Xét cho cùng, lời nhắc văn bản nghe có vẻ đơn giản về mặt lý thuyết, nhưng chúng yêu cầu rất nhiều điều chỉnh khi bạn cần điều gì đó rất cụ thể hoặc yêu cầu nhiều bước để tạo đầu ra mong muốn.
Vấn đề này đã làm phát sinh một nghề mới – đó là “kỹ sư nhắc nhở AI.” Tùy thuộc vào công ty và chi tiết cụ thể của dự án được đề cập, loại công việc này có thể được trả tới $335,000 mỗi năm, và nó không yêu cầu bằng cấp.
Ngược lại, giao diện người dùng được trình bày trong các video demo cho thấy một người bình thường sẽ sớm có thể thực hiện một số công việc mà một kỹ sư nhắc nhở AI có thể làm bằng cách chỉ cần nhấp và kéo vào đầu ra đầu tiên của bất kỳ công cụ tạo hình ảnh nào. Các nhà nghiên cứu giải thích rằng DragGAN sẽ “gây ảo giác” cho nội dung bị che khuất, làm biến dạng đối tượng hoặc sửa đổi cảnh quan.
Các nhà nghiên cứu lưu ý rằng DragGAN có thể biến đổi nội dung của hình ảnh chỉ trong vài giây khi sử dụng card đồ họa GeForce RTX 3090 của Nvidia, vì việc triển khai chúng không cần sử dụng nhiều mạng thần kinh để đạt được kết quả mong muốn. Bước tiếp theo sẽ là phát triển một mô hình tương tự để chỉnh sửa mô hình 3D dựa trên điểm. Những bạn muốn tìm hiểu thêm về DragGAN có thể đọc bài báo đây. Nghiên cứu cũng sẽ được trình bày tại SIGGRAPH vào tháng 8.