Programadores, duerman tranquilos: la IA fracasó en la prueba de aptitud profesional

Programadores, duerman tranquilos: la IA fracasó en la prueba de aptitud profesional

Cómo OpenAI evaluó las redes neuronales en tareas reales.

image

OpenAI ha verificado cómo los modelos de lenguaje manejan realmente la programación y si pueden, como muchos de nosotros tememos, reemplazar pronto a los humanos en el desarrollo de vanguardia. Como prueba, la empresa tomó 1488 tareas de la plataforma Upwork, desde pequeñas correcciones hasta proyectos completos a gran escala.

Upwork es la plataforma de freelancers más grande del mundo, donde los clientes encuentran profesionales para diversas tareas: desde programación y diseño hasta redacción y asistencia virtual. La plataforma tiene registrados más de 20 millones de freelancers de todo el mundo y aproximadamente 5 millones de clientes. El servicio actúa como intermediario: garantiza el pago del trabajo, proporciona herramientas para la comunicación y gestión de proyectos, y ayuda a resolver disputas entre clientes y profesionales.

En el experimento participaron tres LLM avanzados: GPT-4o y o1 de OpenAI, así como Claude 3.5 Sonnet de Anthropic. Tenían que realizar trabajos por los que los freelancers habían recibido en total más de un millón de dólares. Era importante no solo escribir código, sino también decidir de forma independiente cómo implementar técnicamente cada proyecto.

Las tareas variaban significativamente en complejidad y costo: desde simples correcciones de errores por 50 dólares hasta proyectos serios valorados en 32 mil dólares. Aproximadamente el 35% de todas las tareas costaban más de mil dólares, y otro 34% se valoraban entre 500 y 1000 dólares. El precio correspondía a los pagos reales que recibieron los freelancers por su trabajo.

La IA tuvo que crear aplicaciones móviles y web, conectar APIs, configurar el trabajo con navegadores y programas externos, así como resolver bugs complejos. Cada solución primero pasaba por pruebas automatizadas y luego era verificada por tres programadores experimentados.

Cada LLM también asumió el papel de líder técnico: debía tomar decisiones estratégicas sobre la arquitectura de las aplicaciones, elegir enfoques de desarrollo y determinar prioridades en el desarrollo de diversas iniciativas. Las elecciones de la IA se compararon con las decisiones reales de los gerentes que anteriormente dirigieron estos proyectos. Es interesante que la gran mayoría de las tareas, alrededor del 90%, no se relacionaban con la creación de nueva funcionalidad, sino con la corrección de problemas existentes en el código.

Claude 3.5 Sonnet mostró el mejor desempeño. En situaciones donde solo se necesitaba programar, logró completar el 26.2% de las tareas, lo que le habría generado 208 mil dólares de los 500.8 mil posibles. Y cuando tuvo que asumir el papel de gerente de proyectos, la IA alcanzó un resultado del 44.9%, lo que corresponde a 400 mil dólares del millón posible.

Se prestó especial atención a las tareas de la categoría "Diamond" - los proyectos más complejos, en los que incluso los programadores experimentados en GitHub trabajaban en promedio 26 días. Durante el trabajo, cada uno tenía múltiples preguntas - el hilo de comentarios generalmente crecía hasta 50 mensajes. Por supuesto, Claude 3.5 también mostró el mejor resultado aquí, aunque el porcentaje exacto de soluciones exitosas en esta categoría fue significativamente menor. Para obtener resultados lo más honestos posible, los modelos trabajaron en un entorno Docker aislado sin acceso a recursos externos - sin soluciones preparadas.

El estudio de OpenAI (que, por cierto, se llamó SWE-Lancer) es notable porque por primera vez las redes neuronales fueron probadas en productos comerciales reales utilizados por millones de personas. Antes de esto, las pruebas solo se realizaban en repositorios especializados con código fuente - tareas que interesaban a un círculo reducido de desarrolladores.

Por cierto, durante el experimento, los propios modelos mejoraron notablemente sus habilidades. Por ejemplo, GPT-4o, que en agosto de 2024 solo podía manejar un tercio de las tareas asignadas, en su nueva versión o3 logró resolver con éxito el 72% de las tareas.

En OpenAI creen que cuando las redes neuronales aprendan a programar al nivel humano, esto hará que el desarrollo de calidad sea más accesible y acelerará el progreso tecnológico. Al mismo tiempo, en la empresa comprenden los riesgos para el mercado laboral, especialmente para programadores principiantes y freelancers.

A pesar del aprendizaje continuo, resultó que los algoritmos inteligentes todavía están lejos de reemplazar a los programadores. Incluso los sistemas más avanzados no pudieron manejar la mayoría de las tareas: a menudo cometían errores en lógica empresarial compleja, no podían integrar eficientemente diferentes tecnologías y tenían dificultades para depurar problemas no triviales. Sin embargo, la metodología SWE-Lancer abrió una nueva forma de evaluar la IA a través del prisma de la economía real: ya es posible decir exactamente qué parte del trabajo de los programadores es más fácil de automatizar y cuánto cuesta esto en términos monetarios.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!