Gemini 2.5 Computer Use: la IA de Google que entiende y controla interfaces gráficas

Malka Mekler
10 oct 2025
2 min de lectura

El modelo introduce una capacidad inédita en los agentes de inteligencia artificial: operar directamente sobre entornos web y móviles, completando acciones visuales sin intervención humana.

La inteligencia artificial avanza hacia un terreno cada vez más cercano al comportamiento humano en entornos digitales. Google presentó el modelo Gemini 2.5 Computer Use, una tecnología diseñada para que los agentes de IA interactúen directamente con interfaces gráficas de usuario (UIs), reproduciendo acciones como hacer clic, escribir o desplazarse en una página, con el objetivo de ejecutar tareas complejas sin necesidad de intervención humana.

Según informó Google, el modelo está construido sobre las capacidades visuales y de razonamiento de Gemini 2.5 Pro, y supera a las principales alternativas del mercado en pruebas de control web y móvil, con menor latencia y mayor precisión. Este desarrollo permite a los agentes completar procesos que antes requerían interacción humana, como llenar formularios, manipular menús desplegables o navegar sitios con autenticación.

El funcionamiento se basa en un bucle iterativo. El modelo recibe una solicitud, una captura de pantalla del entorno y el historial de acciones recientes; luego genera una respuesta que suele corresponder a una acción de interfaz, como un clic o la entrada de texto. Tras ejecutarse, el sistema envía una nueva captura del entorno y la URL actual para continuar el ciclo hasta que la tarea finaliza o se detiene por decisión del usuario o por una respuesta de seguridad.

Aunque está optimizado principalmente para navegadores web, el modelo también demuestra un rendimiento prometedor en control de interfaces móviles, marcando un paso hacia agentes más versátiles y generalistas.

Google subrayó que el desarrollo incluyó una arquitectura de seguridad integrada, orientada a mitigar riesgos como el uso indebido por parte de usuarios, comportamientos inesperados del modelo o intentos de manipulación a través de inyecciones de prompts. Además, los desarrolladores pueden definir restricciones adicionales para impedir que la IA ejecute acciones potencialmente peligrosas, como comprometer sistemas o eludir mecanismos de validación.

La compañía destacó que versiones iniciales del modelo ya se han utilizado en pruebas de software y automatización de interfaces, acelerando tareas de validación y mejorando la fiabilidad en entornos reales.

El Gemini 2.5 Computer Use ya está disponible en versión preliminar pública a través de la Gemini API, accesible desde Google AI Studio y Vertex AI, invitando a los desarrolladores a experimentar con agentes que comprenden y manipulan el entorno visual del software con un nivel de autonomía sin precedentes.

Gemini 2.5 Computer Use: la IA de Google que entiende y controla interfaces gráficas

El modelo introduce una capacidad inédita en los agentes de inteligencia artificial: operar directamente sobre entornos web y móviles, completando acciones visuales sin intervención humana.

Le puede interesar: Google DeepMind lleva la ciberseguridad al siguiente nivel con CodeMender

Entradas relacionadas

Comentarios

24 / 7 Actualizaciones en nuestras Redes Sociales