OpenAI cree que la I.A sobrehumana está al caer

Trata sobre: IA Transformación digital

Mientras los inversores se preparaban para hacer un escándalo tras la destitución sin contemplaciones de Sam Altman de OpenAI, los miembros del equipo de Superalignment de OpenAI seguían trabajando asiduamente en el problema de cómo controlar una I.A más inteligente que los humanos.

O al menos, esa es la impresión que quieren dar.

¿Un peligro para el ser humano?

OpenAI formó un equipo Superalignment en julio para desarrollar formas de dirigir, regular y gobernar sistemas de IA «superinteligentes», es decir, sistemas teóricos con una inteligencia muy superior a la humana.

«En la actualidad, podemos alinear modelos que son más tontos que nosotros o, como mucho, de nivel humano», explica OpenAI. «Alinear un modelo que es realmente más inteligente que nosotros es mucho, mucho menos obvio: ¿cómo podemos hacerlo?».

El cofundador y director científico de OpenAI, Ilya Sutskever, dirige la Superalighnemnt, algo que no llamó la atención en julio, pero que sí lo hace ahora, dado que Sutskever fue uno de los que inicialmente presionaron para que se despidiera a Altman.

La Superalignment (o superalineación) es un tema un tanto delicado dentro de la comunidad de investigadores de IA. Algunos sostienen que se trata de un subcampo prematuro; otros insinúan que es una pista falsa.

Aunque Altman ha invitado a hacer comparaciones entre OpenAI y el Proyecto Manhattan, llegando incluso a reunir un equipo para probar modelos de IA con el fin de proteger contra «riesgos catastróficos», incluidas amenazas químicas y nucleares, algunos expertos afirman que hay pocas pruebas que sugieran que la tecnología de la startup vaya a adquirir pronto –o nunca– una capacidad de superinteligencia humana que acabe con el mundo.

Cortina de humo

Las afirmaciones de una superinteligencia inminente, añaden estos expertos, sólo sirven para desviar deliberadamente la atención y distraer de los acuciantes problemas de regulación de la I.A del momento, como el sesgo algorítmico y la tendencia de la I.A a la toxicidad.

Por otro lado, Sutskever parece creer seriamente que la I.A -no la de OpenAI per se, sino alguna encarnación de ella- podría suponer algún día una amenaza existencial. Al parecer, llegó a encargar y quemar una efigie de madera en las instalaciones de la empresa para demostrar su compromiso con la prevención de daños causados por la I.A a la humanidad, y destina una cantidad significativa de los recursos informáticos de OpenAI -el 20% de sus chips- a la investigación del equipo de Superalignment.

«El progreso de la IA en los últimos tiempos ha sido extraordinariamente rápido, y puedo asegurar que no se está ralentizando», afirma Aschenbrenner. «Creo que muy pronto llegaremos a sistemas de nivel humano, pero no nos detendremos ahí: llegaremos a sistemas sobrehumanos… Entonces, ¿cómo alineamos los sistemas de IA sobrehumanos y los hacemos seguros? Es realmente un problema para toda la humanidad, quizá el problema técnico sin resolver más importante de nuestro tiempo».

Instalando los cimientos

El equipo de Superalineación, actualmente, está intentando construir marcos de gobernanza y control que puedan aplicarse bien a futuros sistemas de IA potentes. No es una tarea sencilla, teniendo en cuenta que la definición de «superinteligencia» -y si un sistema de IA concreto la ha alcanzado- es objeto de un intenso debate. Pero el planteamiento que el equipo ha adoptado por ahora consiste en utilizar un modelo de IA más débil y menos sofisticado (por ejemplo, GPT-2) para guiar a un modelo más avanzado y sofisticado (GPT-4) en las direcciones deseables y alejarlo de las indeseables.

«Gran parte de lo que intentamos hacer es decirle a un modelo lo que tiene que hacer y asegurarnos de que lo hará». «¿Cómo conseguimos que un modelo siga instrucciones y que sólo ayude con cosas que son ciertas y no se invente cosas? ¿Cómo conseguimos que un modelo nos diga si el código que ha generado tiene un comportamiento seguro o atroz? Estos son los tipos de tareas que queremos poder lograr con nuestra investigación».

Modelo fuerte vs modelo débil

El modelo débil pretende ser un sustituto de los supervisores humanos, mientras que el modelo fuerte representa a la IA superinteligente. Al igual que los humanos, que podrían no ser capaces de entender un sistema de IA superinteligente, el modelo débil no puede «comprender» todas las complejidades y matices del modelo fuerte, lo que lo hace útil para probar hipótesis de superalineación, según el equipo de Superalineación.

En la configuración del equipo de Superalineación, un modelo débil ajustado a una tarea concreta genera etiquetas que se utilizan para «comunicar» las líneas generales de esa tarea al modelo fuerte. A partir de estas etiquetas, el modelo fuerte puede generalizar más o menos correctamente según la intención del modelo débil, aunque las etiquetas de éste contengan errores y sesgos.

El equipo afirma que el enfoque de modelos débiles-fuertes podría incluso dar lugar a avances en el campo de las alucinaciones.

«Las alucinaciones son bastante interesantes, porque internamente el modelo sabe si lo que está diciendo es verdad o ficción». «Pero tal y como se entrenan estos modelos hoy en día, los supervisores humanos les recompensan con ‘pulgares arriba’ o ‘pulgares abajo’ por decir las cosas. Así que a veces, sin darse cuenta, los humanos recompensan al modelo por decir cosas que son falsas o que el modelo en realidad no sabe, etcétera. Si tenemos éxito en nuestra investigación, deberíamos desarrollar técnicas que nos permitan invocar los conocimientos del modelo y aplicar esa invocación para saber si algo es realidad o ficción y utilizarlo para reducir las alucinaciones».

Sin embargo, la analogía no es perfecta y OpenAI lo sabe. Por eso quiere que el público aporte ideas.

El comodín del público

Para ello, OpenAI va a lanzar un programa de subvenciones de 10 millones de dólares para apoyar la investigación técnica sobre la alineación superinteligente, cuyos tramos se reservarán a laboratorios académicos, organizaciones sin ánimo de lucro, investigadores individuales y estudiantes de posgrado. OpenAI también tiene previsto organizar una conferencia académica sobre superalineación a principios de 2025, en la que compartirá y promocionará el trabajo de los finalistas del premio de superalineación.

Curiosamente, una parte de la financiación de la subvención procederá del antiguo presidente y consejero delegado de Google, Eric Schmidt. Schmidt, ferviente partidario de Altman, se está convirtiendo rápidamente en un ejemplo de doomismo de la IA, afirmando que la llegada de sistemas de IA peligrosos está cerca y que los reguladores no están haciendo lo suficiente para prepararse.

«La IA y otras tecnologías emergentes están remodelando nuestra economía y sociedad», dijo en una declaración enviada por correo electrónico. «Garantizar que están alineadas con los valores humanos es fundamental, y estoy orgulloso de apoyar las nuevas subvenciones de OpenAI para desarrollar y controlar la IA de forma responsable en beneficio público».

Todo al servicio de la ciencia

De hecho, la participación de una figura con motivaciones comerciales tan transparentes plantea la pregunta: ¿La investigación de OpenAI sobre superalineación, así como la que anima a la comunidad a presentar en su futura conferencia, se pondrá a disposición de cualquiera para que la utilice como mejor le parezca?

El equipo de Superalignment asegura que sí, que tanto la investigación de OpenAI -incluido el código- como el trabajo de otros que reciban subvenciones y premios de OpenAI en trabajos relacionados con la superalineación se compartirán públicamente.

«Contribuir no sólo a la seguridad de nuestros modelos, sino también a la de los modelos de otros laboratorios y a la IA avanzada en general forma parte de nuestra misión», afirma OpenAI. «Es fundamental para nuestra misión de construir una I.A en beneficio de toda la humanidad y de forma segura. Y creemos que hacer esta investigación es absolutamente esencial para que sea beneficiosa y segura.»