
Google está dando pasos agigantados en el mercado de las inteligencias artificiales. Parecía que nadie podía competirle a OpenAI con su modelo GPT, pero los de la gran G cada vez muestran más avances en este sector.
No solo tienen a Gemini, una de las mejores alternativas a ChatGPT en la actualidad. También han presentado recientemente muchas herramientas atractivas basadas en este modelo: Veo 3, Nano Banana, NotebookLM, Genie 3, el Modo IA del buscador, etc.
Y ahora han presentado una IA que puede navegar en Internet por ti. Así es, Google acaba de lanzar Gemini 2.5 Computer Use, un modelo avanzado que funciona como un agente de control de navegador. A continuación, te lo explicamos al detalle y te revelamos cómo probarlo.
¿Qué es Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use es un modelo especializado construido sobre las capacidades de visión y razonamiento de Gemini 2.5 Pro. No genera texto como un chatbot tradicional, sino que está diseñado para interactuar con interfaces de usuario de páginas webs.
Esto significa que, siguiendo las instrucciones del usuario, puede hacer clics, pulsar botones, seleccionar opciones, escribir y llevar a cabo otro tipo de entradas interpretando el entorno digital en el que se encuentra para lograr el objetivo solicitado.
Para hacer todo esto, la IA captura una imagen del estado actual del navegador, razona sobre la tarea y emite la siguiente acción a ejecutar, repitiendo el proceso hasta completar la meta. Básicamente, Gemini 2.5 Computer Use es una IA que puede navegar en Internet como lo haría un humano para completar las tareas que le solicites.
¿Para qué sirve Gemini 2.5 Computer Use?

El nuevo Gemini 2.5 Computer Use es el primer gran avance de Google en su proyecto de automatizar entornos digitales con IA. Si bien por ahora solo puede controlar navegadores webs, la idea es que esto evolucione a agentes de IA interactúen directamente con las interfaces de programas, sistemas operativos, etc.
Las principales aplicaciones actuales incluyen las siguientes:
- Automatizar tareas web: permite completar y enviar formularios complejos, manejar registros o realizar compras en línea sin intervención manual.
- Buscar información: puede realizar tareas de investigación multietapa, navegando por múltiples páginas web para recopilar, comparar y resumir datos.
- Probar apps o páginas webs: los desarrolladores pueden usarlo para automatizar pruebas de regresión y end-to-end de aplicaciones web, buscando errores y verificando el flujo de usuarios.
- Iniciar de sesión en webs: es capaz de operar en entornos que requieren autenticación, manipulando menús desplegables y superando los filtros de inicio de sesión.
Cómo usar Gemini 2.5 Computer Use

Lo primero que tienes que saber es que Gemini 2.5 Computer Use es una API de Gemini y la forma oficial de probarlo es a través de Google AI Studio y Vertex AI. Requiere que tengas conocimientos en código dado que debes construir tu propio agente de control de navegador.
También puedes probar una demostración fácil para el público en general. Se trata de la web Gemini Browser (abajo dejamos el enlace) en la que te dan un recuadro de chat para solicitarle a la demo de Gemini 2.5 Computer Use una tarea de navegación.
Enlace | Demostración de Gemini 2.5 Computer Use (Gemini Browser)

Si eres programador y quieres probar realmente de qué es capaz Gemini 2.5 Computer Use, vas a tener que trabajar en el código. Para ello tendrás que crearte una cuenta en Google AI Studio, la plataforma de Google diseñada para dar acceso a las API de Gemini (las «API Key»).
Una vez la tengas, tienes que abrir el Colab Notebook «Introduction to Gemini 2.5 Computer Use model and tool» y configurar el código del modelo «gemini-2.5-computer-use-preview-10-2025″ así como también el bucle del agente. Por último, inserta tu API Key (la que obtienes al pulsar «Get API Key») y ejecuta el código.
Y tú… ¿Cuánto crees que falta para que lancen una versión de Gemini que controle todo tu ordenador?















