Microsoft presenta una I.A que entiende imágenes y puzles

Trata sobre: I.A Microsoft Soluciones

La carrera por una Inteligencia Artificial cada vez más humana no ha hecho más que comenzar. Y es que Microsoft acaba de presentar una I.A que entiende imágenes y puzles, entre otros avances.

Los de Redmond han querido dar un paso más allá, y han presentado Kosmos-1, un modelo multimodal capaz de analizar imágenes en busca de contenido, resolver rompecabezas visuales, reconocer textos visuales (los captchas tienen los días contados) , superar pruebas de inteligencia visual y comprender instrucciones en lenguaje natural. Casi nada.

Una evolución sorprendente

Los investigadores creen que esta I.A multimodal -que integra distintos modos de entrada como texto, audio, imágenes y vídeo- es un paso clave para construir una I.A capaz de realizar tareas generales al nivel de un ser humano.

De hecho, está a un nivel en el que puede navegar, buscar y utilizar aplicaciones web como un humano, según los investigadores del proyecto.

«Al ser una parte básica de la inteligencia, la percepción multimodal es una necesidad para lograr la inteligencia general artificial, en términos de adquisición de conocimientos y conexión con el mundo real».
Declaraciones de los investigadores en su artículo académico Language Is Not All You Need: Aligning Perception with Language Models; puedes consultarlo aquí).

Los ejemplos visuales de dicho artículo del Kosmos-1 muestran al modelo analizando imágenes y respondiendo a preguntas sobre ellas, leyendo el texto de una imagen, escribiendo pies de foto y realizando un test de inteligencia visual con una precisión del 22-26%.

*Ejemplos de lo que la I.A es capaz de hacer*

Algunos expertos en I.A apuntan a la I.A multimodal como el verdadero camino hacia una inteligencia artificial general, una tecnología hipotética que, ostensiblemente, sería capaz de sustituir a los humanos en cualquier tarea intelectual.

De hecho, esta tecnología es el objetivo declarado de OpenAI, socio comercial clave de Microsoft en el espacio de la I.A y que ya vimos en avances como el nuevo chat de Bing.

Tecnología Microsoft

Sin embargo, parece que en este caso, Kosmos-1 es un proyecto exclusivo de Microsoft, sin la participación de OpenAI. Los investigadores denominan a su creación «modelo multimodal de gran lenguaje», porque sus raíces se encuentran en el procesamiento del lenguaje natural, al igual que inteligencias artificiales de sólo texto, como ChatGPT.

Para que Kosmos-1 acepte la entrada de una imagen, los investigadores deben traducirla primero a una serie especial de tokens (básicamente, texto) que el nuevo modelo pueda entender.

Una I.A que entiende imágenes y puzles

Microsoft entrenó a Kosmos-1 utilizando datos de la web, incluidos extractos de The Pile (un recurso de textos en inglés de 800 GB) y Common Crawl.

Tras este entrenamiento previo, evaluaron las capacidades de Kosmos-1 en pruebas muy variadas, como comprensión y generación de idiomas, clasificación de textos sin reconocimiento óptico de caracteres, subtitulado de imágenes, respuesta a preguntas visuales, respuestas a preguntas sobre páginas web y clasificación de imágenes.

En muchas de estas pruebas, sorprendentemente, Kosmos-1 superó a los modelos actuales más avanzados, según Microsoft.

Un largo camino que recorrer

El rendimiento de Kosmos-1 se ha medido también en el Razonamiento Progresivo de Raven, un protocolo que mide el CI visual. Para ello, se presentan una secuencia de formas y se pide al examinado (que puede ser una I.A o un humano) que complete dicha secuencia.

Los investigadores le hicieron pasar un test, y fue preguntado con cada opción completada si la respuesta era correcta. Kosmos-1 sólo pudo responder correctamente a una pregunta del test de Raven el 22% de las veces (el 26% con un ajuste fino).

Viendo los resultados y el estado prematuro de desarrollo, es cuestión de tiempo mejorar estas puntuaciones para alcanzar una precisión mucho mayor.

Al fin y al cabo, está dando los primeros pasos en el ámbito multimodal (un enfoque también perseguido por otros), y es fácil pensar que optimizaciones futuras podrían aportar resultados aún más sorprendentes, permitiendo a los modelos de I.A llegar a percibir cualquier forma de medio y actuar en consecuencia.

En el futuro, los investigadores afirman que les gustaría ampliar el tamaño del modelo Kosmos-1 e integrar también la capacidad del habla. Microsoft afirma que tiene previsto poner Kosmos-1 a disposición de los desarrolladores, aunque todavía no hay fechas fijadas.