Meta vừa ra mắt tiện ích AudioCraft có khả năng tạo ra âm thanh và âm nhạc trung thực “chất lượng cao”, với giấy phép nguồn mở.
Cụ thể, Công nghệ tạo nhạc mà Meta áp dụng cho AudioCraft được thiết kế để giải quyết “khoảng trống” trong thị trường AI tổng quát, nơi mà việc tạo âm thanh đã bị tụt lại phía sau trong lịch sử. Mặc dù đã đạt được một số tiến bộ trong lĩnh vực này, nhưng công ty thừa nhận rằng các giải pháp hiện tại rất phức tạp, không cởi mở và không dễ tiếp cận để thử nghiệm.
Các mã nguồn AudioCraft là một thư viện PyTorch dành cho nghiên cứu học sâu về tạo âm thanh, bao gồm ba thành phần chính: MusicGen, AudioGen và EnCodec. Theo Meta, MusicGen tạo nhạc từ đầu vào của người dùng dựa trên văn bản, trong khi AudioGen được thiết kế để tạo hiệu ứng âm thanh. EnCodec, được giới thiệu vào năm 2022, là một công nghệ mã hóa mạnh mẽ có khả năng “siêu nén” các luồng âm thanh.

Mô hình MusicGen AI có thể tạo ra các giai điệu và bài hát hấp dẫn từ đầu. Meta đang cung cấp một số ví dụ được tạo từ lời nhắc bằng văn bản, chẳng hạn như “Bản nhạc pop dance có giai điệu hấp dẫn, bộ gõ nhiệt đới và nhịp điệu lạc quan, hoàn hảo cho bãi biển” hoặc “Tông màu đất, có ý thức về môi trường, hòa quyện với đàn ukulele, hài hòa, mát mẻ, dễ chịu, nhạc cụ hữu cơ, rãnh nhẹ nhàng .”
AudioGen có thể được sử dụng để tạo hiệu ứng âm thanh nền môi trường, chẳng hạn như tiếng chó sủa hoặc còi báo động đến gần và đi ngang qua người nghe. Bản phát hành mã nguồn mở của EnCodec là phiên bản cải tiến của codec được giới thiệu vào năm 2022, vì nó hiện cho phép tạo nhạc chất lượng cao hơn với ít thành phần giả hơn.
AudioCraft cung cấp một cách tiếp cận đơn giản để tạo âm thanh, vốn luôn là một thách thức. Công ty giải thích rằng việc tạo ra bất kỳ loại âm thanh có độ trung thực cao nào đều yêu cầu mô hình hóa các tín hiệu và mẫu phức tạp ở các tỷ lệ khác nhau. Âm nhạc là loại âm thanh khó tạo nhất, vì nó bao gồm các mẫu cục bộ và tầm xa. Meta giải thích rằng các mô hình trước đây đã sử dụng các biểu diễn mang tính biểu tượng như MIDI hoặc cuộn piano để tạo nội dung, nhưng cách tiếp cận này không thành công khi cố gắng nắm bắt tất cả “sắc thái biểu cảm và các yếu tố phong cách” có trong âm nhạc.
Meta tuyên bố rằng MusicGen đã được đào tạo trên khoảng 400.000 bản ghi cùng với mô tả văn bản và siêu dữ liệu. Mô hình này đã hấp thụ 20.000 giờ âm nhạc do công ty sở hữu trực tiếp hoặc được cấp phép đặc biệt cho mục đích này. So với OpenAI và các mô hình tổng quát khác, Meta dường như đang cố gắng tránh mọi tranh cãi về cấp phép hoặc các vấn đề pháp lý tiềm ẩn liên quan đến các hoạt động đào tạo phi đạo đức.


