Las limitaciones de la ampliación de los modelos lingüísticos de la IA ¿Sabías que…?

Trata sobre: Benchmarks GPT-3 Inteligencia Artificial Lenguaje Machine Learning Nvidia OpenAI

Las limitaciones de la ampliación de los modelos lingüísticos de la IA. Los modelos de lenguaje grande como GPT-3 de OpenAI muestran una aptitud para generar texto y código similares a los humanos. También pueden escribir automáticamente correos electrónicos y artículos, componer poesía y corregir errores de software.

Sin embargo, el enfoque dominante para desarrollar estos modelos implica aprovechar recursos computacionales masivos. Esto tiene consecuencias. Más allá del hecho de que la capacitación y la implementación de grandes modelos de lenguaje pueden generar altos costes técnicos, los requisitos colocan los modelos fuera del alcance de muchas organizaciones e instituciones. El escalado tampoco resuelve el problema principal del sesgo y la toxicidad del modelo. A menudo se filtra a partir de datos utilizados para entrenar los modelos.

En un panel durante la Conferencia Sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2021), los expertos del campo discutieron cómo la comunidad de investigación debe adaptarse a medida que el progreso en los modelos de lenguaje continúa siendo impulsado por algoritmos ampliados. Los expertos exploraron cómo garantizar que las instituciones más pequeñas puedan investigar. También cómo podrían auditar de manera significativa los sistemas a gran escala. Además, también cómo pueden ayudar a garantizar que los sistemas se comporten según lo previsto.

Las limitaciones de la ampliación de los modelos lingüísticos de la IA

Melanie Mitchell, profesora de informática en el Instituto Santa Fe, planteó que es difícil garantizar las mismas normas de reproducibilidad para modelos de lenguaje grandes. La IA ya tenía un problema de reproducibilidad. Los estudios a menudo proporcionan resultados de referencia en lugar del código fuente. Esto se vuelve problemático cuando se cuestiona la minuciosidad de las referencias. Sin embargo, la gran cantidad de computación requerida para probar grandes modelos amenaza con exacerbar el problema.

Incluso empresas como OpenAI, que tiene cientos de millones de dólares en fondos de Microsoft, tiene problemas con esto. La empresa no corrigió un error cuando implementó GPT-3. Se trata de un modelo de lenguaje con menos de la mitad de parámetros que MT-NLG de Nvidia. El coste de la capacitación hizo que volver a entrenar el modelo fuese inviable.

«A menudo, las personas en las conferencias de ML darán resultados como «nuevos números de parámetros en nuestro sistema produjeron este nuevo rendimiento en este benchmark». Sin embargo, es muy difícil entender exactamente por qué el sistema logra esto». Esto lo dijo Mitchell. «Trae a colación la dificultad de hacer ciencia con estos sistemas… La mayoría de las personas en el mundo académico no tienen los recursos informáticos para hacer el tipo de ciencia que se necesita».

Un problema en los benchmarks

Sin embargo, incluso con los recursos informáticos necesarios, la evaluación comparativa de modelos de lenguaje grandes no es un problema resuelto. Es la afirmación de algunos expertos que los puntos de referencia populares hacen un mal trabajo. Este error se produce al estimar el rendimiento del mundo real y no tienen en cuenta las implicaciones éticas, técnicas y sociales más amplias. Por ejemplo, un estudio reciente (descarga) descubrió que entre el 60% y el 70% de las respuestas proporcionadas por los modelos de procesamiento de lenguaje natural estaban integradas en algún lugar de los conjuntos de entrenamiento de referencia. Esto indica que los modelos estaban memorizando respuestas.

«Las formas en que medimos el rendimiento de estos sistemas deben ampliarse. Cuando los benchmarks se modifican un poco, no se generalizan bien. Así que creo que las formas en que probamos los sistemas y las formas en que medimos su rendimiento tienen que ser un gran problema en todo este campo. Tenemos que dedicar más tiempo a esto».