¿Está la inteligencia artificial preparada para liderar en finanzas? Pruebas de una startup plantean dudas sobre la capacidad de los modelos de lenguaje para interpretar informes de la SEC con precisión, un aspecto crítico en la industria.
Investigadores de la startup Patronus AI han descubierto que los grandes modelos de lenguaje, como el núcleo de ChatGPT, enfrentan dificultades al analizar preguntas derivadas de informes presentados ante la Comisión de Valores y Bolsa (SEC, por sus siglas en inglés), de acuerdo a un informe de CNBC.
Incluso la configuración más eficiente probada, el GPT-4-Turbo de OpenAI, solo logró un 79% de respuestas correctas en las pruebas de Patronus AI, a pesar de tener acceso a casi todo el informe junto con la pregunta.
Los modelos de lenguaje a menudo se negaban a responder o "alucinaban" cifras y hechos que no estaban en los informes de la SEC, lo que llevó a los fundadores de Patronus AI a considerar inaceptable esta tasa de rendimiento.
Los hallazgos resaltan los desafíos que enfrentan los modelos de IA a medida que las grandes empresas, especialmente en industrias reguladas como la financiera, buscan incorporar tecnología de vanguardia en sus operaciones, ya sea para servicio al cliente o investigación.
La capacidad de extraer rápidamente números importantes y realizar análisis sobre narrativas financieras se considera una de las aplicaciones más prometedoras para los chatbots desde el lanzamiento de ChatGPT. Los informes de la SEC están llenos de datos cruciales, y si un bot pudiera resumirlos con precisión o responder rápidamente preguntas sobre su contenido, podría proporcionar una ventaja en la competitiva industria financiera.
Empresas como Bloomberg, Microsoft y JPMorgan han explorado aplicaciones de IA en finanzas, pero la entrada de GPT en la industria no ha sido sin problemas. Patronus AI, fundada por ex empleados de Meta (la empresa matriz de Facebook), busca abordar estos desafíos mediante pruebas automatizadas de LLM con software. Su prueba, denominada FinanceBench, se basa en más de 10,000 preguntas y respuestas extraídas de informes de la SEC de grandes empresas, estableciendo un estándar mínimo de rendimiento para la IA del lenguaje en el sector financiero.
Las pruebas incluyeron modelos de lenguaje como GPT-4, GPT-4-Turbo, Claude2 de Anthropic y Llama 2 de Meta. A pesar de diversas configuraciones y contextos proporcionados a los modelos, los resultados revelaron deficiencias incluso cuando se les dirigía directamente al texto relevante.
Aunque los cofundadores de Patronus AI ven un gran potencial en los modelos de lenguaje para ayudar en la industria financiera, reconocen que se necesitará tiempo para mejorar la precisión antes de que la automatización completa sea una realidad. La importancia de evitar errores, especialmente en industrias reguladas, subraya la necesidad de un enfoque cuidadoso al integrar la IA en aplicaciones financieras.
Comments