Aplicaciones

¿Sonidos a la carta? Con la IA de AudioGen solo tendrás que escribir lo que quieras y ella lo creará

Por

Oct 6, 2022

audiogen Inteligencia artificial texto a audio

La Inteligencia Artificial (IA) llegó para quedarse y cada día es más sencillo llegar a ella desde nuestros móviles y ordenadores. Ya no hablamos solo de mejorar las fotografías en nuestros smartphones o las búsquedas en Internet. Ahora, algunas IA pueden crear imágenes alucinantes partiendo desde una descripción en texto.

Aplicaciones como Dall-E 2 o Stable Diffusion tienen un rendimiento brutal en imágenes 2D, así como Kaedim en 3D. Sin embargo, parece que a las IA y sus desarrolladores las imágenes ya les parecen poca cosa, así que van más allá. ¿Ejemplos? Make-A-Video, la IA de Meta que genera vídeos, o de la que hablaremos hoy. Descubre AudioGen, la IA capaz de generar sonidos a partir de texto que podría marcar un antes y un después en la industria musical.

Dale una descripción textual y AudioGen te devolverá el sonido que deseas

Los desarrolladores detrás de los proyectos de Inteligencia Artificial no descansan. Ahora, Meta y la Universidad Hebrea de Jerusalén se unieron para diseñar una IA capaz de generar sonidos con tan solo darle una descripción textual.

Según datos aportados por Felix Kreuk en Twitter (uno de sus responsables), AudioGen utiliza un modelo autorregresivo capaz de interpretar el lenguaje natural usado en el texto y generar muestras de audio con ello.

Los desarrolladores apuntan que una de las mejores características de esta IA es su capacidad para trabajar con audios complejos. AudioGen es capaz de reconocer diferentes tipos de sonidos en una misma pista y separarlos, por ejemplo: cuando analiza el audio de una orquesta, puede filtrar los sonidos de diferentes instrumentos.

No es totalmente precisa, tal como sucede con otras IA populares de los últimos meses. Sin embargo, esta característica es fundamental para poder generar muestras de audio que se apeguen a las indicaciones de los usuarios.

Como sabrás, todas estas IA de texto-a-algo parten de distintos conjuntos de datos que le sirven para entrenarse. Así es como, por ejemplo, Text-to-Pokémon es capaz de crear Pokémon únicos que no existen en los juegos. En el caso de AudioGen, los responsables del proyecto aseguraron que su IA «fue entrenada utilizando 10 conjuntos de datos de audio y etiquetas coincidentes».

Cómo crear sonidos a partir de descripciones textuales con AudioGen

We present “AudioGen: Textually Guided Audio Generation”!

AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).

📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models – soon!

(1/n) pic.twitter.com/UiJaA627bv

— Felix Kreuk (@FelixKreuk) September 30, 2022

Al momento de escribir esta nota, AudioGen todavía estaba en proceso de desarrollo cerrado. Por tanto, no está disponible para que nadie fuera del proyecto la use.

Sin embargo, los desarrolladores ya aseguraron que esperan abrirla al público próximamente. ¿Cómo? Tras publicar el código de AudioGen y sus documentos técnicos en GitHub. No sabemos si lanzarán una versión compilada, como sucede con otros generadores de imágenes y vídeos por IA. Asimismo, tampoco sabemos si lanzarán solo el código fuente para que cada quien lo compile.

Sea como sea, estaremos atentos a cualquier anuncio, porque seguramente algún otro usuario compile el código después de publicado, dándonos acceso a esta fabulosa IA de forma más sencilla.

Con todo y eso, ya puedes escuchar algunos sonidos generados por AudioGen gracias al tweet de Kreuk que publicamos arriba. ¿Será esta IA el nuevo reto que tendrá que enfrentar la industria del entretenimiento? O, por el contrario, ¿será que AudioGen se convierte en un valioso aliado?