El magnate Elon Musk coincide con otros expertos en IA en que quedan pocos datos del mundo real con los que entrenar modelos de IA.
«Hemos agotado básicamente la suma acumulada de conocimiento humano …. en el entrenamiento de IA», dijo Musk durante una conversación en directo con el presidente de Stagwell, Mark Pen.
Un límite que obliga a realizar cambios
Musk, propietario de la empresa de IA xAI, se hizo eco de los temas que el antiguo científico jefe de OpenAI, Ilya Sutskever, tocó en NeurIPS, la conferencia sobre aprendizaje automático, durante una intervención en diciembre. Sutskever, que afirmó que el sector de la IA había alcanzado lo que denominó «pico de datos», predijo que la falta de datos de entrenamiento obligará a abandonar la forma actual de desarrollar modelos.
De hecho, Musk sugirió que los datos sintéticos generados por los propios modelos de IA- son el camino a seguir. «La única forma de complementar [los datos del mundo real] es con datos sintéticos, en los que la IA crea [datos de entrenamiento]», afirmó. «Con datos sintéticos… [la IA] se autocalificará y pasará por este proceso de autoaprendizaje».
¿El futuro a seguir para la IA?
Otras empresas, entre ellas gigantes tecnológicos como Microsoft, Meta, OpenAI y Anthropic, ya utilizan datos sintéticos para entrenar modelos de IA emblemáticos. Gartner estima que el 60% de los datos utilizados para proyectos de IA y análisis en 2024 se generaron sintéticamente.
El Phi-4 de Microsoft se entrenó con datos sintéticos y con datos reales. Lo mismo ocurrió con los modelos Gemma de Google. Anthropic utilizó datos sintéticos para desarrollar uno de sus sistemas más eficaces, Claude 3.5 Sonnet. Y Meta perfeccionó su serie de modelos Llama más reciente utilizando datos generados por IA.
El entrenamiento con datos sintéticos tiene otras ventajas, como el ahorro de costes. La startup de IA Writer afirma que su modelo Palmyra X 004, desarrollado utilizando casi exclusivamente fuentes sintéticas, costó sólo 700.000 dólares, frente a los 4,6 millones de dólares estimados para un modelo OpenAI de tamaño comparable.
Pero también hay desventajas. Algunas investigaciones sugieren que los datos sintéticos pueden provocar el colapso del modelo, que se vuelve menos «creativo» -y más sesgado- en sus resultados, lo que acaba comprometiendo seriamente su funcionalidad. Dado que los modelos crean datos sintéticos, si los datos utilizados para entrenar estos modelos tienen sesgos y limitaciones, sus resultados estarán igualmente contaminados.