Pidieron a una IA que hiciera de hacker; el resultado fue flojo (pero el avance asusta)

Pidieron a una IA que hiciera de hacker; el resultado fue flojo (pero el avance asusta)

Opus 4.6 obtuvo el mejor resultado en la prueba de detección de puertas traseras ocultas.

image

En el ámbito de la seguridad informática ha surgido una nueva manera de evaluar hasta qué punto los modelos de IA actuales son capaces de encontrar puertas traseras ocultas en programas ya compilados. La empresa Quesma presentó los resultados del proyecto BinaryAudit – una prueba a gran escala de agentes de IA para evaluar su capacidad de analizar código máquina sin los archivos fuente y encontrar en él rastros de actores maliciosos.

BinaryAudit está organizado como una base de tareas en la que en programas reales y de código abierto para servidores, proxies y servicios de red se introdujeron manualmente mecanismos de acceso ocultos especialmente diseñados, las llamadas «puertas traseras». En las pruebas, los modelos deben, sin acceso al código fuente, determinar si el ejecutable contiene lógica peligrosa oculta y también indicar dónde se encuentra. Además, las tareas evalúan la habilidad para trabajar con herramientas de ingeniería inversa como Ghidra o Radare2 y exigen no generar falsos positivos en archivos limpios.

Al final del experimento el resultado global fue bastante modesto. El mejor sistema en la categoría de búsqueda de modificaciones ocultas, el modelo Opus 4.6, logró identificar correctamente el 49% de estas tareas. Le siguieron otros modelos modernos con resultados en torno al 40–45%, sin embargo no todos los participantes del test mostraron un nivel alto.

Detección de puertas traseras en archivos binarios compilados

Clasificación de detección de puertas traseras (Quesma)

Se evaluó por separado la tasa de falsos positivos. Por ejemplo, uno de los modelos de la familia GPT mostró un nivel nulo de falsas alarmas, pero detectó solamente el 18% de las puertas traseras reales. Esto indica que la precisión y la exhaustividad de la búsqueda aún se combinan mal en una sola solución.

El estudio también comparó el coste y la velocidad de funcionamiento. Los modelos más precisos con frecuencia requerían considerablemente más tiempo y recursos computacionales. Las opciones más rápidas y económicas trabajaban con mayor rapidez, pero con más frecuencia dejaban pasar vulnerabilidades. Los autores señalan que por ahora ningún sistema se ha aproximado a la fiabilidad del análisis manual profesional, aunque el progreso en el último año ha sido notable.

Entre otras tareas en BinaryAudit hubo casos en los que un modelo resolvía sin errores una tarea simple de decompilación, pero no podía determinar si el programa contenía código malicioso. En general, el conjunto de pruebas demuestra que, aunque los sistemas de IA modernos ofrecen cierto progreso en el análisis de código máquina, todavía están lejos de la automatización completa de las tareas complejas de ingeniería inversa y detección de amenazas.

Según los autores, este tipo de benchmarks ayudan a comprender mejor los puntos débiles y orientan a los desarrolladores hacia los requisitos reales de seguridad, además de que el carácter abierto del proyecto permite a otros especialistas reproducir y ampliar el experimento.

El conjunto de pruebas de BinaryAudit está disponible en acceso abierto. Cualquiera puede ejecutar las mismas comprobaciones y comparar los nuevos modelos entre sí. Los desarrolladores esperan que esto acelere el desarrollo del análisis automático de archivos binarios y ayude a detectar antes las amenazas ocultas en el software listo para usar.