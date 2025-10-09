Google ha presentado Gemini 2.5 Computer Use, una inteligencia artificial avanzada que revoluciona la automatización digital al permitir que los agentes naveguen, interactúen y operen con páginas web de manera natural, como lo haría una persona.

Esta tecnología está diseñada principalmente para navegadores, pero ya muestra también sus capacidades en dispositivos móviles, acelerando procesos y ayudando a probar software.

¿Qué es Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use es el nuevo modelo de IA de Google, construido sobre la arquitectura Gemini 2.5 Pro, que permite la interacción directa con interfaces gráficas a través de un ciclo de análisis, ejecución y retroalimentación visual.

Así, la IA puede hacer clics, escribir, desplazar elementos, seleccionar opciones e incluso completar y enviar formularios complejos, con una precisión y velocidad que superan a otras soluciones del mercado.

Ventajas frente a otras tecnologías

Una de las características más destacadas de Gemini 2.5 Computer Use es que obtiene resultados líderes en diversas pruebas y puntos de referencia como WebArena, Online-Mind2Web y WebVoyager.

Supera en precisión y baja latencia a las alternativas actuales, logrando más del 70% de precisión en simulaciones complejas y manteniendo respuestas ágiles, algo fundamental en aplicaciones en tiempo real.

Cómo funciona: interacción multimodal e iterativa

La clave de Gemini 2.5 Computer Use está en el procesamiento multimodal: reúne texto, capturas de pantalla y el historial de acciones para tomar decisiones.

A través del módulo computer_use de la API Gemini, los desarrolladores envían la meta de usuario y el entorno visual.

El modelo analiza, decide la operación (clic, relleno de formulario, arrastre, etc.) y ejecuta, solicitando confirmación humana en acciones críticas. Todo esto se repite hasta completar la tarea, adaptándose de forma segura a los cambios en la interfaz.

Aplicaciones prácticas y disponibilidad

Aunque está principalmente optimizado para navegadores, también funciona en algunas aplicaciones móviles.

Desarrolladores, startups y empresas ya pueden acceder a una vista preliminar de Gemini 2.5 Computer Use a través de Google AI Studio y Vertex AI, sin requerir configuraciones complejas. Entre los casos de uso destacan:

Automatización de entrada de datos y gestión en plataformas web.

Pruebas y validaciones de interfaces de usuario.

Organización de tableros visuales y clasificación de tareas.

Creación de asistentes virtuales capaces de operar en diferentes ambientes digitales.

Limitaciones y perspectivas de futuro

Por ahora, Gemini 2.5 Computer Use reconoce 13 tipos de acciones básicas y su enfoque principal sigue siendo el entorno de navegador.

Todavía no está optimizado para controlar sistemas operativos de escritorio de forma integral, aunque se esperan futuras versiones con mayor alcance.

Google recalca que la seguridad se logró incorporando filtros inteligentes y solicitando validaciones para evitar acciones de alto riesgo, protegiendo tanto a los usuarios como a la integridad de los sistemas.

Fuente: Google