Comumente, tecnologias de IA generativa são utilizadas para criar imagens estáticas e trechos de texto, mas a Meta reconhece a necessidade de trazer essa capacidade para a área do áudio. Embora já existam algumas soluções no mercado, elas costumam ser complicadas, pouco acessíveis e fechadas em termos de experimentação.
O AudioCraft foi desenvolvido como uma biblioteca PyTorch, oferecendo três componentes-chave: MusicGen, AudioGen e EnCodec. O MusicGen permite gerar música com base em instruções de texto fornecidas pelo usuário, enquanto o AudioGen é responsável por criar efeitos de áudio. Já o EnCodec, lançado em 2022, é um codificador poderoso capaz de “hipercomprimir” fluxos de áudio.
Um dos destaques do AudioCraft é o MusicGen AI, que é capaz de gerar músicas envolventes e originais a partir do zero. A Meta compartilha exemplos de músicas geradas a partir de prompts de texto, como “uma faixa de dança pop com melodias cativantes, percussões tropicais e ritmos otimistas, perfeita para momentos na praia” ou “uma composição com tons terrosos, ambientalmente consciente, com infusão de ukulele, harmonias suaves e instrumentação orgânica, perfeita para relaxar”.
Já o AudioGen pode ser utilizado para criar efeitos de áudio de fundo, como o som de um cão latindo ou uma sirene se aproximando e passando pelo ouvinte. E o EnCodec, aprimorado em relação à versão de 2022, permite gerar músicas de maior qualidade com menos artefatos indesejados.
O lançamento do AudioCraft representa uma abordagem simplificada para a geração de áudio, uma tarefa que sempre foi desafiadora. A criação de áudio de alta qualidade requer a modelagem de sinais e padrões complexos em diversas escalas. Segundo a Meta, a música é especialmente desafiadora de se gerar, pois envolve padrões locais e de longo alcance. Abordagens anteriores utilizavam representações simbólicas como MIDI ou rolos de piano, mas essas técnicas não conseguem capturar todas as nuances expressivas e elementos estilísticos presentes na música.
A Meta afirma que o MusicGen foi treinado em aproximadamente 400.000 gravações, além de descrições de texto e metadados. O modelo se baseou em mais de 20.000 horas de música de propriedade direta da empresa ou licenciada especificamente para esse fim. Ao lançar o AudioCraft, a Meta demonstra um compromisso em evitar controvérsias de licenciamento e possíveis problemas legais relacionados a práticas de treinamento antiéticas.
Com o framework AudioCraft, a Meta espera abrir novas possibilidades criativas no campo da geração de áudio e música, facilitando o acesso a essa tecnologia e promovendo uma experiência de usuário mais envolvente e exclusiva.