top of page

Denuncian que Google manipuló el video demo de Gemini, su nuevo modelo de IA

La presentación de la nueva inteligencia artificial de Google generó controversia al descubrirse que la sorprendente demostración de sus funciones no es del todo auténtica.



La reciente introducción de Gemini, el flamante modelo de inteligencia artificial de Google, tuvo un gran debut. El destacado video demo titulado "Hands-on with Gemini: Interacting with multimodal AI" alcanzó un millón de vistas en un día, y sorpendió a muchos con una impresionante demostración de cómo el modelo multimodal (que comprende y combina lenguaje y comprensión visual) puede ser flexible y receptivo a diversas entradas.


Sin embargo, un artículo de Techcrunch reveló que esa demostración fue alterada y lo que muestra no es del todo verdad.


El video comienza narrando el desarrollo de un dibujo de un pato a partir de un garabato hasta completarse, luego muestra sorpresa ("¡Qué cuac!") al ver un pato azul de juguete. Responde a varias preguntas de voz sobre ese juguete y continúa con otras exhibiciones, como rastrear una pelota en un juego de cambio de taza, reconocer gestos con sombras y reorganizar bocetos con dibujos de planetas, entre otras cosas.



Aunque el video advierte que "se ha reducido la latencia y se han acortado las salidas de Gemini", lo cual implica omitir alguna vacilación aquí y una respuesta demasiado larga allá, la presentación en general fue impresionante en el campo de la comprensión multimodal. Sin embargo, la sorpresa se desvanece al descubrir que el video no es real.


"Creamos la demo capturando imágenes para probar las capacidades de Gemini en una amplia gama de desafíos. Luego, hicimos preguntas a Gemini utilizando cuadros de imágenes fijas del metraje y a través de instrucciones de texto", admitió Google, según el informe inicial de Parmy Olsen de Bloomberg. Este medio también reveló

que varios empleados criticaron el demo en cuestión y que "el vídeo muestra una imagen poco realista de lo fácil que es conseguir resultados impresionantes con Gemini".


De acuerdo a la investigación de Techcrunch, Gemini parece haber generado las respuestas que se muestran en el video. Pero los espectadores son engañados sobre la velocidad, precisión y modo fundamental de interacción con el modelo.


Por ejemplo, en el minuto 2:45 del video, se muestra una mano haciendo una serie de gestos en silencio. Gemini responde rápidamente: "¡Sé lo que estás haciendo! ¡Estás jugando a Piedra, Papel o Tijeras!"


Pero lo primero que se destaca en la documentación de la capacidad es que el modelo no razona en función de ver gestos individuales. Debe mostrársele los tres gestos a la vez y ser instruido: "¿Qué crees que estoy haciendo? Pista: es un juego". Responde: "Estás jugando a piedra, papel o tijeras".


A pesar de la similitud, estas no parecen ser la misma interacción. Se sienten como interacciones fundamentalmente diferentes, una evaluación intuitiva y sin palabras que captura una idea abstracta sobre la marcha, y otra interacción diseñada e insinuada que demuestra limitaciones tanto como capacidades. Gemini hizo lo último, no lo primero. La "interacción" mostrada en el video no ocurrió.


Más tarde, se colocan tres notas adhesivas con dibujos del Sol, Saturno y la Tierra sobre la superficie. "¿Es este el orden correcto?" Gemini dice que no, que es Sol, Tierra, Saturno. ¡Correcto! Pero en la instrucción real (nuevamente, escrita), la pregunta es: "¿Es este el orden correcto? Considera la distancia desde el sol y explica tu razonamiento".


¿Lo hizo Gemini correctamente? ¿O lo hizo mal y necesitaba un poco de ayuda para producir una respuesta que pudieran poner en un video? ¿Reconoció incluso los planetas, o necesitaba ayuda también?


En el video, una bola de papel se intercambia debajo de una taza, que el modelo detecta y sigue instantánea e aparentemente intuitivamente. En la publicación, no solo se debe explicar la actividad, sino que el modelo debe ser entrenado (aunque rápidamente y usando lenguaje natural) para realizarla. Y así sucesivamente.


En una publicación en redes sociales realizada después de la reveacón de Techcrunch, Oriol Vinyals, VP de Investigación de Google DeepMind, dijo que "el video ilustra cómo podrían ser las experiencias de usuario multimodales construidas con Gemini. Lo hicimos para inspirar a los desarrolladores".


Comments


bottom of page