top of page

Gemini 2.5 Computer Use: la IA de Google que entiende y controla interfaces gráficas

El modelo introduce una capacidad inédita en los agentes de inteligencia artificial: operar directamente sobre entornos web y móviles, completando acciones visuales sin intervención humana.


ree

La inteligencia artificial avanza hacia un terreno cada vez más cercano al comportamiento humano en entornos digitales. Google presentó el modelo Gemini 2.5 Computer Use, una tecnología diseñada para que los agentes de IA interactúen directamente con interfaces gráficas de usuario (UIs), reproduciendo acciones como hacer clic, escribir o desplazarse en una página, con el objetivo de ejecutar tareas complejas sin necesidad de intervención humana.


Según informó Google, el modelo está construido sobre las capacidades visuales y de razonamiento de Gemini 2.5 Pro, y supera a las principales alternativas del mercado en pruebas de control web y móvil, con menor latencia y mayor precisión. Este desarrollo permite a los agentes completar procesos que antes requerían interacción humana, como llenar formularios, manipular menús desplegables o navegar sitios con autenticación.


El funcionamiento se basa en un bucle iterativo. El modelo recibe una solicitud, una captura de pantalla del entorno y el historial de acciones recientes; luego genera una respuesta que suele corresponder a una acción de interfaz, como un clic o la entrada de texto. Tras ejecutarse, el sistema envía una nueva captura del entorno y la URL actual para continuar el ciclo hasta que la tarea finaliza o se detiene por decisión del usuario o por una respuesta de seguridad.


ree

Aunque está optimizado principalmente para navegadores web, el modelo también demuestra un rendimiento prometedor en control de interfaces móviles, marcando un paso hacia agentes más versátiles y generalistas.


Google subrayó que el desarrollo incluyó una arquitectura de seguridad integrada, orientada a mitigar riesgos como el uso indebido por parte de usuarios, comportamientos inesperados del modelo o intentos de manipulación a través de inyecciones de prompts. Además, los desarrolladores pueden definir restricciones adicionales para impedir que la IA ejecute acciones potencialmente peligrosas, como comprometer sistemas o eludir mecanismos de validación.


La compañía destacó que versiones iniciales del modelo ya se han utilizado en pruebas de software y automatización de interfaces, acelerando tareas de validación y mejorando la fiabilidad en entornos reales.


El Gemini 2.5 Computer Use ya está disponible en versión preliminar pública a través de la Gemini API, accesible desde Google AI Studio y Vertex AI, invitando a los desarrolladores a experimentar con agentes que comprenden y manipulan el entorno visual del software con un nivel de autonomía sin precedentes.


itnow-03.png

© Derechos reservados

Connecta B2B - 2025

Políticas de privacidad

ACERCA DE NOSOTROS

IT NOW es un espacio multiplataforma y un núcleo para conectar negocios que se compone de varios elementos: su sitio web con noticias de TI relevantes en la región, un newsletter semanal, su multiplataforma de redes sociales, por último, sus eventos enfocados en las verticales de TI y en donde destaca el aclamado Tech Day, la gira de actualización tecnológica más importante de la región.

24 / 7 Actualizaciones en nuestras Redes Sociales
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • X
  • RSS
bottom of page