La IA lleva años prometiendo transformar el trabajo profesional en áreas como la abogacía, consultoría, analistas financieros, contables, especialistas IT… Sin embargo, pese al avance espectacular de los modelos fundacionales, la revolución laboral no ha llegado con la fuerza que muchos anticipaban.
Un nuevo estudio publicado por Mercor, una compañía especializada en datos de entrenamiento, arroja luz sobre este fenómeno. Su benchmark APEX‑Agents evalúa cómo se comportan los modelos de IA más avanzados en tareas reales de consultoría, banca de inversión y derecho. El resultado es contundente: todos suspenden. Ningún modelo supera el 25% de precisión en tareas profesionales reales.
Este hallazgo plantea una pregunta clave para empresas, tecnólogos y responsables de estrategia: ¿están los agentes de IA realmente listos para asumir trabajo profesional de alto valor?
Un benchmark diseñado para imitar el trabajo real
A diferencia de otros tests más teóricos, APEX‑Agents se construyó a partir de escenarios reales proporcionados por profesionales en activo. Estos expertos definieron tanto las preguntas como los criterios de éxito, creando un entorno que simula fielmente cómo se trabaja en consultoras, despachos legales o bancos de inversión.
El CEO de Mercor, Brendan Foody, explica que el gran reto para los modelos actuales no es la falta de conocimiento, sino la incapacidad para integrar información dispersa en múltiples dominios, tal y como hacemos los humanos cuando trabajamos entre Slack, Google Drive, documentos internos, políticas corporativas y bases de datos externas.
“En la vida real no recibimos todo el contexto en un único mensaje. Operamos entre herramientas y fuentes distintas”, señala Foody.
Este tipo de razonamiento multidominio sigue siendo un punto débil para los agentes de IA, incluso para los más avanzados.
Ejemplos que muestran la complejidad del trabajo profesional
Uno de los casos incluidos en el benchmark pertenece al ámbito legal. La pregunta plantea si una empresa puede considerar conforme al artículo 49 del RGPD la exportación de uno o dos paquetes de logs con datos personales a un proveedor estadounidense durante una caída de servicio.
La respuesta correcta es “sí”, pero llegar a esa conclusión exige:
- Interpretar políticas internas de la empresa.
- Conocer la normativa europea de protección de datos.
- Evaluar el contexto operativo del incidente.
- Aplicar criterios legales de proporcionalidad y necesidad.
Incluso para un abogado especializado, no es una pregunta trivial. Para un modelo de IA, es un desafío que requiere razonamiento contextual profundo, algo que todavía no domina.

¿Por qué fallan los agentes de IA en tareas profesionales?
El estudio identifica varios factores clave:
1. Razonamiento distribuido
Los humanos combinamos información de múltiples fuentes sin perder el hilo. Los modelos actuales, en cambio, tienden a “olvidar” partes del contexto o a mezclarlo incorrectamente.
2. Ambigüedad y matices
Las tareas profesionales rara vez tienen respuestas binarias. Requieren interpretar matices, evaluar riesgos y justificar decisiones.
3. Dependencia del entorno
El trabajo real se desarrolla en ecosistemas complejos: herramientas colaborativas, repositorios, documentos internos, políticas corporativas. Los modelos aún no navegan bien estos entornos.
4. Falta de memoria operativa sostenida
Aunque los modelos han mejorado en planificación, todavía no ejecutan cadenas largas de razonamiento con consistencia.
¿Qué significa esto para las empresas?
El mensaje principal es claro: los agentes de IA aún no están listos para reemplazar a profesionales de alto valor, pero sí pueden complementar su trabajo.
Beneficios actuales:
- Automatización de tareas repetitivas.
- Búsqueda y síntesis de información.
- Generación de borradores y análisis preliminares.
- Asistencia en documentación y reporting.
Limitaciones actuales:
- Incapacidad para asumir responsabilidad legal o financiera.
- Falta de precisión en tareas críticas.
- Dificultad para trabajar con información fragmentada.
- Riesgo de errores sutiles pero graves.
Para las organizaciones, la estrategia óptima hoy es integrar agentes de IA como copilotos, no como sustitutos.
¿Qué podemos esperar en los próximos años?
La publicación de APEX‑Agents supone un desafío abierto para los laboratorios de IA. Ahora que el benchmark es público, es probable que veamos una carrera por superarlo, igual que ocurrió con otros estándares en el pasado.
Si la tendencia de mejora anual se mantiene, podríamos ver modelos capaces de realizar tareas profesionales con un 50% o 60% de precisión en pocos años. A partir de ese punto, la automatización parcial de sectores como consultoría, banca o derecho podría acelerarse de forma notable.
El estudio de Mercor desmonta la idea de que los agentes de IA ya están listos para asumir trabajos profesionales complejos. La realidad es más matizada: los modelos son poderosos, pero aún no entienden el contexto como un humano.
Sin embargo, la mejora es constante y rápida. Lo que hoy parece un límite infranqueable podría superarse en cuestión de meses. Las empresas que sepan integrar la IA de forma estratégica —sin expectativas irreales, pero con visión de futuro— serán las que obtengan mayor ventaja competitiva.