Trong một từ: Các nhà nghiên cứu từ Bot Intelligence Group (BIG) tại Đại học Carnegie Mellon (CMU) đã phát triển một cánh tay rô-bốt có thể vẽ hình ảnh dựa trên lời nhắc bằng lời nói, chữ viết và hình ảnh. AI rất giống với DALL-E, ngoại trừ nó vẽ vật lý đầu ra trong thời gian thực thay vì tạo ra hình ảnh kỹ thuật số gần như tức thời.
CÁC TO LỚN Nhóm đã đặt tên cho rô-bốt FRIDA như một cái gật đầu với nghệ sĩ người Mexico Frida Kahlo và là từ viết tắt của Sáng kiến Khung và Người máy cho Nghệ thuật Phát triển. Hiện tại, người máy đòi hỏi ít nhất một vài thông tin đầu vào theo ngữ cảnh và khoảng một giờ để chuẩn bị cho phong cách nét vẽ của anh ấy.
Người dùng cũng có thể tải lên một hình ảnh để “truyền cảm hứng” cho FRIDA và tác động đến kết quả bằng cách cung cấp các mô tả bằng ngôn ngữ đơn giản. Ví dụ: đưa ra một bức ảnh bán thân của Elon Musk và lời nhắc bằng giọng nói “baby sobs”, AI đã tạo ra bức chân dung bên dưới (trên cùng bên trái). Các nhà nghiên cứu đã thử nghiệm với các loại đầu vào khác, như để AI phát một bài hát như Dancing Queen của Abba.
Một số công việc mới của chúng ta trong dự án FRIDA: Robot Synesthesia, vẽ từ đầu vào âm thanh và cảm xúc.https://t.co/LrqyGigg5J pic.twitter.com/ouswMrMdyh
— Robot vẽ tranh FRIDA (@FridaRobot) Ngày 12 tháng 2 năm 2023
Peter Schaldenbrand, sinh viên tiến sĩ kiêm kỹ sư trưởng Peter Schaldenbrand đã nhanh chóng chỉ ra rằng FRIDA không thể cư xử như một nghệ sĩ thực thụ. Nói cách khác, robot không thể hiện khả năng sáng tạo của mình.
Schaldenbrand nói: “FRIDA là một hệ thống vẽ tranh bằng robot, nhưng FRIDA không phải là một nghệ sĩ. “FRIDA không tạo ra ý tưởng để giao tiếp. FRIDA là một hệ thống mà một nghệ sĩ có thể cộng tác. Nghệ sĩ có thể chỉ định các mục tiêu cấp cao cho FRIDA và sau đó FRIDA có thể thực hiện chúng.”
Các thuật toán của robot không khác với các thuật toán được sử dụng trong ChatGPT của OpenAI và DALL-E 2. Đó là Mạng đối thủ sáng tạo (GAN) được thiết lập để vẽ hình ảnh và đánh giá hiệu suất của nó để cải thiện đầu ra. Về mặt lý thuyết, với mỗi bức tranh, FRIDA nên diễn giải lời nhắc và sản phẩm của nó tốt hơn, nhưng vì nghệ thuật là chủ quan nên ai sẽ nói cái nào “tốt hơn”.
Điều thú vị là FRIDA tạo ra một bảng màu riêng cho mỗi bức chân dung nhưng không thể trộn các loại sơn với nhau. Hiện tại, con người phải trộn và cung cấp màu sắc chính xác. Tuy nhiên, một nhóm từ Trường Kiến trúc CMU đang nghiên cứu một phương pháp tự động hóa quá trình trộn sơn. Sinh viên LỚN có thể mượn phương pháp này để làm cho FRIDA hoàn toàn tự trị.
Quá trình vẽ tranh của bot tương tự như của một nghệ sĩ và mất hàng giờ để tạo ra một bức tranh hoàn chỉnh. Cánh tay rô bốt vẽ các nét vẽ lên canvas trong khi camera quan sát từ trên cao. Đôi khi các thuật toán đánh giá hình ảnh mới nổi để đảm bảo rằng nó tạo ra đầu ra mong muốn. Nếu nó đi lạc, AI sẽ điều chỉnh để căn chỉnh nó phù hợp hơn với lời nhắc, đó là lý do tại sao mỗi bức chân dung đều có những sai sót nhỏ của riêng nó.
Các nhà nghiên cứu LỚN gần đây được phát hành nghiên cứu của họ với arXiv từ Đại học Cornell. Nhóm cũng duy trì Twitter FRIDA tài khoản kể từ tháng 8 năm 2022, với rất nhiều sáng tạo về rô-bốt và các ấn phẩm về quá trình phát triển của nó. Tuy nhiên, FRIDA rất tiếc là không thể truy cập công khai. Dự án tiếp theo của nhóm là dựa trên những gì họ đã học được với FRIDA để phát triển rô-bốt điêu khắc.