Los grandes modelos lingüísticos son cruciales para el desarrollo de la I.A. Pueden realizar diversas tareas, como resolver problemas matemáticos y crear contenidos. Sin embargo, los LLM (modelos lingüísticos) a veces tienen dificultades con las consultas complejas. Al fin y al cabo, los científicos carecen de datos de entrenamiento adecuados para enseñarles a razonar correctamente. Por ello, algunos investigadores crearon EURUS, una colección de grandes modelos de I.A para tareas de razonamiento.
Mejorando la comprensión hacia nuevas cotas
Además de EURUS, los investigadores utilizan DPO y KTO, dos técnicas que ayudan a los LLM a comprender las preferencias humanas. DPO son las siglas en inglés de Optimización Directa de Preferencias. Esta técnica utiliza un conjunto de datos de preferencias humanas para entrenar a los LLM a comprender las respuestas preferibles. Se trata de un método sencillo y eficaz. Sin embargo, requiere muchos datos. Por tanto, la OPD requiere mucho tiempo y es cara.
Por otro lado, la Optimización Kahneman-Tversky (KTO) es la alternativa más barata a la DKO. Utiliza ejemplos etiquetados de respuestas buenas y malas. Sin embargo, no es tan eficaz como la OPD o EURUS.
¿Por qué necesitamos EURUS?
Investigadores de diversos campos crearon EURUS específicamente para tareas de razonamiento. Por tanto, debería tener mejores capacidades de toma de decisiones que otros LLM.
Además, cuenta con un conjunto de datos único conocido como Ultra Interact. Esta función incorpora capacidades de aprendizaje de preferencias, intrincados modelos de interacción y cadenas de razonamiento con interacciones de varios giros.
EURUS se basa en Mistral-7B y CodeLlama-70B y utiliza el conjunto de datos Ultra Interact para afinar sus capacidades. Además, evaluaron las capacidades de razonamiento de EURUS utilizando LeetCode y TheoremQA. Así, la colección LLM debería ser capaz de enfrentarse a teoremas y problemas matemáticos complejos.
Los investigadores probaron el rendimiento de EURUS-70B, un LLM específico de la colección, utilizando LeetCode y TheoremQA. Como resultado, según el trabajo de investigación, el LLM obtuvo una puntuación del 33,3% en LeetCode y del 32,6% en TheoremQA.
Así pues, los investigadores consideran que EURUS-70B tiene una gran capacidad para resolver problemas de algoritmos. Además, es competente a la hora de explicar conceptos científicos y enunciados matemáticos.
Un paso adelante en resolución de problemas matemáticos
Sorprendentemente, la I.A EURUS-70B supera a los LLM existentes en un 13,3%. Además, el modelo obtiene buenos resultados en múltiples pruebas comparativas. Así pues, EURUS tiene una amplia capacidad de razonamiento. Como resultado, se ha convertido en un nuevo estándar para el rendimiento de los LLM.
En última instancia, la colección EURUS mejorará también otros modelos LLM. Así, con sus capacidades de razonamiento mejoradas, los investigadores podrían lograr un gran avance en las técnicas de resolución de problemas de IA. Además, podría ser más preciso y eficaz que DPO y KTO.