Los servicios de IA generativa están haciendo las delicias de todos los directores ejecutivos de la industria tecnológica. Se espera que sustituyan a millones de trabajadores y automaticen casi todo, pero los investigadores del MIT advierten de que los modelos de IA no comprenden realmente las «reglas» de del mundo, de los sistemas complejos.
La inteligencia artificial no es inteligente
Un gran modelo de lenguaje (LLM) puede supuestamente imitar la inteligencia humana y ofrecer resultados muy convincentes a partir de las indicaciones textuales de un usuario. Sin embargo, el modelo se limita a predecir, a veces con una precisión asombrosa, las mejores palabras que colocar junto a las anteriores en un contexto textual concreto. Cuando los LLM se enfrentan a condiciones impredecibles en el mundo real, sus resultados pueden perder fiabilidad rápidamente.
Los investigadores del MIT intentaron desarrollar nuevas métricas para verificar adecuadamente si los sistemas de IA generativa pueden entender el mundo, como comprobar su capacidad para proporcionar indicaciones giro a giro en la ciudad de Nueva York. Los LLM modernos parecen aprender «implícitamente» modelos del mundo, afirman los investigadores en un estudio reciente, pero debe haber una manera formalizada de evaluar adecuadamente este aparentemente notable alarde de «inteligencia».

Poniéndola a prueba
El equipo se centró en los transformadores, un tipo de modelo de IA generativa utilizado por servicios populares como GPT-4. Los transformadores se entrenan con bases de datos masivas de datos lingüísticos, por lo que adquieren una gran destreza en sus tareas de predicción de textos. A continuación, los investigadores evaluaron las predicciones de la IA generativa utilizando una clase de problemas conocidos como autómatas finitos deterministas (AFD).
La definición de AFD incluye distintos tipos de problemas, como el razonamiento lógico, la navegación geográfica, la química o el juego. Los científicos del MIT eligieron dos problemas distintos -conducir por las calles de Nueva York y jugar a Otelo- para probar la capacidad de la IA de comprender correctamente las reglas subyacentes.
«Necesitábamos bancos de pruebas en los que supiéramos cuál es el modelo del mundo. Ahora podemos pensar con rigor qué significa recuperar ese modelo del mundo», afirma Keyon Vafa, investigador postdoctoral de Harvard.
En general, los transformadores probados fueron capaces de generar direcciones precisas y movimientos de Otelo válidos, pero no funcionaron bien cuando los investigadores añadieron desvíos al mapa de Nueva York. En este caso concreto, todos los modelos de IA generativa fueron incapaces de «leer» correctamente los desvíos, proponiendo pasos elevados aleatorios que en realidad no existían o calles con orientaciones «imposibles».