La Inteligencia Artificial (IA) llegó para quedarse y cada día es más sencillo llegar a ella desde nuestros móviles y ordenadores. Ya no hablamos solo de mejorar las fotografías en nuestros smartphones o las búsquedas en Internet. Ahora, algunas IA pueden crear imágenes alucinantes partiendo desde una descripción en texto.

Aplicaciones como Dall-E 2 o Stable Diffusion tienen un rendimiento brutal en imágenes 2D, así como Kaedim en 3D. Sin embargo, parece que a las IA y sus desarrolladores las imágenes ya les parecen poca cosa, así que van más allá. ¿Ejemplos? Make-A-Video, la IA de Meta que genera vídeos, o de la que hablaremos hoy. Descubre AudioGen, la IA capaz de generar sonidos a partir de texto que podría marcar un antes y un después en la industria musical.

Los desarrolladores detrás de los proyectos de Inteligencia Artificial no descansan. Ahora, Meta y la Universidad Hebrea de Jerusalén se unieron para diseñar una IA capaz de generar sonidos con tan solo darle una descripción textual.

Según datos aportados por Felix Kreuk en Twitter (uno de sus responsables), AudioGen utiliza un modelo autorregresivo capaz de interpretar el lenguaje natural usado en el texto y generar muestras de audio con ello.

Los desarrolladores apuntan que una de las mejores características de esta IA es su capacidad para trabajar con audios complejos. AudioGen es capaz de reconocer diferentes tipos de sonidos en una misma pista y separarlos, por ejemplo: cuando analiza el audio de una orquesta, puede filtrar los sonidos de diferentes instrumentos.

No es totalmente precisa, tal como sucede con otras IA populares de los últimos meses. Sin embargo, esta característica es fundamental para poder generar muestras de audio que se apeguen a las indicaciones de los usuarios.

Como sabrás, todas estas IA de texto-a-algo parten de distintos conjuntos de datos que le sirven para entrenarse. Así es como, por ejemplo, Text-to-Pokémon es capaz de crear Pokémon únicos que no existen en los juegos. En el caso de AudioGen, los responsables del proyecto aseguraron que su IA «fue entrenada utilizando 10 conjuntos de datos de audio y etiquetas coincidentes».

We present “AudioGen: Textually Guided Audio Generation”!

AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).

📖 Paper: https://t.co/XKctRaShN1

🎵 Samples: https://t.co/e7vWmOUfva

💻 Code & models – soon!

(1/n) pic.twitter.com/UiJaA627bv

— Felix Kreuk (@FelixKreuk) September 30, 2022