Bidi-1: el modelo de lenguaje de voz natural y fluido con el que OpenAI quiere revolucionar la industria

ChatGPT Bidi-1 filtrado que es funcionalidades como activar

Los modelos de lenguaje de IA capaces de mantener una conversación por voz medianamente fluida y con ciertas interrupciones no son algo nuevo. Gemini Live es un buen ejemplo, también Advanced Voice Mode de ChatGPT, el motor conversacional de Claude y más. Sin embargo, están lejos de ser perfectos.

Algunos pierden el hilo contextual de la conversación rápidamente, otros no admiten interrupciones largas o tienen problemas para cambiar una orden sobre la marcha. OpenAI parece que quiere cambiar eso y lo sabemos gracias a la filtración de GPT-Bidi-1, que permite escuchar y hablar en simultáneo, incluso con interrupciones y de manera tan fluida como cuando hablas con tu mejor amigo.

Pausas largas, pocas interrupciones, cambios sobre la marcha y mucha memoria contextual

El equipo de TestingCatalog filtró GPT-Bidi-1, un nuevo modelo conversacional basado en voz que estaría probándose dentro de ChatGPT y que en su propio código interno es presentado como «un gran salto en inteligencia» y «la próxima generación de voz».

TestingCatalog señala que ‘Bidi’ podría ser una abreviatura de diseño ‘bidireccional’, pero ¿qué tiene esto de relevante? Pues que es su principal gancho comercial: ser un asistente capaz de escuchar, pensar y hablar al mismo tiempo.

¿Qué tiene de especial esto si ya otros modelos lo hacen? Que al parecer lo hace con maestría absoluta, pudiendo lograr esto:

  • Hablar y pensar mientras te está escuchando, sin necesidad de esperar a que una interacción termine para accionar.
  • Cambiar una tarea en plena ejecución y a mitad de la conversación sin ningún problema. Por ejemplo, pedirle que te diga el abecedario en una dirección y luego ordenar que lo haga en la contraria cuando va por la mitad.
  • Mejor gestión de las interrupciones, con pequeñas señales de aprobación para validar que te sigue escuchando y que acepta una interrupción.
  • Mejor gestión de las pausas prolongadas, manteniendo la escucha activa por más de 20 segundos antes de preguntar si sigues ahí.
  • Memorización del contexto muy superior a la de otras alternativas, siendo capaz de recordar mucha más información antes de dejar ir una idea de la que hablaron antes.
Recomendado:  ¿El fin de WhatsApp? La app tendrá anuncios y deberás pagar para quitarlos

Esto último es muy relevante, pues el motor de voz actual de ChatGPT es bastante mediocre al respecto y los de otras compañías tampoco es que sean una maravilla. Si OpenAI logra dominar la memoria conversacional para voz con GPT-Bidi-1, darán un palo importante al mercado.

¿Cómo activar GPT-Bidi-1 en ChatGPT?

El nuevo motor de voz de ChatGPT ya está siendo probado por un pequeño grupo de usuarios alrededor del mundo al que se le dio acceso. No sabemos cuándo llegará al público general, pero si OpenAI mantiene políticas previas, debería suceder en muy poco tiempo. ¿Qué tan rápido? Tanto como esta misma semana, aunque queda completamente de ellos hacerlo o no.

¿Cómo podrás activar Bidi-1 cuando esté disponible? Muy fácil: estará disponible en el selector de modelos de ChatGPT (en los ajustes), junto a las opciones ‘estándar’ y ‘avanzado’. Cuando lo selecciones, el icono de voz de ChatGPT se volverá amarillo para avisarte que ya está listo para usarse.