El 2022 fue el año de las inteligencias artificiales. En dicho año vimos la llegada de IA que crean imágenes a partir de texto (DALL-E o Stable Diffusion), chicas de anime (Waifu Diffusion), vídeos (Make-A-Video), que convierten fotos 2D en objetos 3D (Kaedim) e incluso una inteligencia artificial con la que puedes hablar (ChatGPT). Pues bien, ahora en 2023 llega una que promete sorprendernos mucho más de lo que lo han hecho las anteriores.
Se trata de VALL-E, una inteligencia artificial de Microsoft y OpenAI (creadores de ChatGPT y DALL-E) que tiene la capacidad de imitar cualquier voz con solo escucharla durante 3 segundos. ¿Quieres saber más de esta nueva inteligencia artificial? Pues a continuación te contamos lo que hasta ahora se sabe de VALL-E.
VALL-E: la IA de Microsoft que solo necesita escucharte durante 3 segundos para replicar tu voz
La inteligencia artificial VALL-E es una tecnología de síntesis de texto a voz (TTS) basada en un códec de audio de Meta (EnCodec) que permite generar audio a partir de texto. Hasta aquí no hay novedad, ya que incluso la propia Microsoft tiene un servicio que ofrece esta función (Text to Speech).
Sin embargo, lo atractivo de VALL-E es que esta IA cuenta además con un analizador de voces capaz de escuchar y reproducir la voz en cuestión con diferentes frases. Y, lo más sorprendente de todo, es que no requiere mucha información. Basta con tener solo 3 segundos de la voz que se quiere imitar para que VALL-E logre replicarla.
En nivel de imitación de voces de VALL-E es muy alto. La IA logra imitar el tono, el estilo y las emociones del hablante con mucha precisión. Prueba de ello son las más de 60000 horas de audios generados imitando a 7000 hablantes diferentes que fueron presentados en un artículo científico publicado por Cornell University.
¿El único problema con esta IA? El uso indebido que puedan darle los usuarios cuando esté disponible para todo el mundo. Microsoft es consciente de que VALL-E puede usarse para suplantar identidades y está trabajando en una solución para evitarlo. El gigante de la tecnología planea crear algún tipo de sistema de detección integrado que permita identificar los audios generados con esta IA.
Y tú… ¿Qué opinas de VALL-E?