CAIBench: A meta-benchmark for evaluating cybersecurity AI agents
| PAPER "Cybersecurity AI Benchmark (CAIBench): link |
The hype vs. reality problem
The integration of large language models (LLMs) into cybersecurity has triggered a wave of tools that promise to automate analysis, defense and incident response.
However, most lack standardized methodologies that objectively measure real-world performance beyond traditional linguistic metrics.
The rise of LLMs—such as PentestGPT, Cybersecurity AI (CAI) or XBOW—has exposed a fundamental gap: there was no unified framework to assess effectiveness in real environments, where multistep reasoning, contextual handling and decision-making under uncertainty are required.
Earlier benchmarks cover partial aspects like semantic understanding or vulnerability classification but do not capture the operational complexity of modern cybersecurity. The result is a widening gap between a model’s theoretical knowledge and its practical ability to operate as an autonomous or assisted agent.
In this context, CAIBench, developed by Alias Robotics, emerges as a comprehensive meta-benchmark designed to reproducibly measure the cognitive and operational capabilities of AI models across offensive, defensive and analytical security tasks. Its goal is to evaluate functional intelligence, not just linguistic accuracy.
CAIBench: a multidimensional evaluation framework
CAIBench is a modular meta-benchmark built to evaluate the capabilities of language models and intelligent agents in offensive, defensive and analytical cybersecurity tasks. Unlike prior benchmarks focused on isolated tasks, CAIBench integrates five complementary benchmarks that, together, let us observe system behavior from cognitive, operational and ethical perspectives.
1️⃣ Jeopardy CTF
The Jeopardy CTF module is based on solving technical challenges inspired by Capture the Flag competitions. It assesses technical competence and cognitive agility through self-contained tasks involving analysis, reverse engineering, exploitation, decryption, and vulnerability detection.
Each challenge includes reasoning traceability (chain of thought), time-to-solve, and penalties for logical errors or repetitions, enabling us to quantify the efficiency of technical reasoning beyond final accuracy.
2️⃣ Attack & Defense (A&D)
The framework’s most innovative module, Attack & Defense (A&D), introduces a competitive multi-agent methodology where two AI systems face off in real time under controlled conditions. Each agent can take attacker or defender roles, leveraging tools, strategic reasoning, and contextual memory to achieve its objectives.
Performance is evaluated with operational metrics such as Time to Impact, Time to Mitigate, false positive/negative rates, and contextual efficiency. This module includes RCTF (Robotics CTF 2.0), extending the approach to robotics and cyber-physical systems (CPS) and adding dimensions of functional safety and real-time response.
3️⃣ Cyber Range
The Cyber Range module replicates enterprise infrastructures and OT networks with active services, realistic traffic, and controlled network noise. It measures an agent’s ability to adapt to complex, non-deterministic environments, evaluating surface coverage, action coherence, and resilience to interruptions or configuration changes.
Core metrics include detection rate, mitigation efficiency, recovery time, and operational robustness.
4️⃣ Knowledge Bench
This module serves as a theoretical reference component, with more than 10,000 Q&A-style items spanning cryptography, network security, reverse engineering, regulations, and industry best practices. Unlike Jeopardy CTF, this benchmark does not require execution, but rather comprehension and contextualization of knowledge.
Metrics include accuracy, inter-session consistency, and robustness to adversarial prompting, offering a quantitative view of a model’s declarative knowledge.
5️⃣ Privacy Bench (CyberPII-Bench)
Privacy Bench focuses on privacy evaluation and regulatory compliance.
It assesses a model’s ability to identify, anonymize and preserve personal information (PII) across contexts in line with the GDPR and European standards.
We use traditional classification metrics (accuracy, recall, F1-score) along with indicators of the utility–privacy trade-off, gauging how well a model maintains proportionality between precision and protection.
Taken together, these five modules make CAIBench a multidimensional, reproducible evaluation environment oriented toward impactful operational metrics. While traditional benchmarks measure linguistic performance, CAIBench quantifies operational intelligence, contextual adaptability and functional safety, aligning assessment with the real needs of AI-driven cybersecurity.
The knowledge–application gap
Experimental results from CAIBench reveal a quantifiable discrepancy between static knowledge and the operational application capacity of language models in cybersecurity tasks. Although LLMs have rapidly expanded their technical knowledge, their performance degrades systematically when they must reason and act autonomously in dynamic environments.
Across more than 2,000 controlled runs in different modules, models achieved an average 70–89% in Knowledge Bench (SecEval, CTIBench, CyberMetric), indicating strong declarative knowledge. However, in active practical execution scenarios (such as Jeopardy CTF with Cybench), success rates dropped to 31–46% for top models, and in scenarios such as Cyber Range and Attack & Defense (A&D), success rates fell to the 20–60% range, exposing the absence of robust multistep reasoning, memory persistence and adaptive decision-making.
Trace and log analysis shows that non-specialized models tend to repeat redundant actions, readjust commands without context, and overreact to incomplete feedback, increasing decision entropy. This directly impacts critical metrics like Mean Time to Detect (MTTD) and Mean Time to Mitigate (MTTM), which were, on average, 2.4× higher than those achieved by architectures with contextual control, such as alias1 within CAI PRO.
The takeaway is clear: LLMs can recognize vulnerabilities and propose mitigations, but they still lack the ability to sequence, prioritize, and execute coherent tactical actions. This knowledge–application gap bounds today’s AI performance in cybersecurity and marks the main bottleneck to truly operational autonomous agents.
Architecture matters: the agent as the core of operational intelligence
In CAIBench tests, two agents built on the same base model showed performance differences of up to 2.6×, depending solely on internal architecture.
This confirms that operational intelligence does not reside in the model alone, but in how its execution environment is structured and coordinated.
Model size supplies knowledge; agent architecture determines whether that knowledge turns into coherent action.
The most notable differences appeared in three components:
context persistence, which measures how long an agent maintains operational coherence before degrading;
tool orchestration, reflecting the ability to integrate and execute external functions reliably; and
iterative feedback, which captures how efficiently failures are detected and corrected during execution.
Agents implementing modular controllers for planning, execution, and validation showed lower decision entropy and greater resilience in noisy environments. Conversely, monolithic designs based solely on prompt chaining or single-shot responses degraded progressively as context grew.
The CAI PRO framework, developed by Alias Robotics, exemplifies this difference. At its core runs alias1, a language model specialized in offensive and defensive cybersecurity, deployed within an agent featuring hierarchical memory and dynamic contextual control.
In Attack & Defense (A&D) and Cyber Range trials, alias1 reduced MTTD/MTTM by 41% versus equivalent generalist agents, keeping semantic error rates below 3%. Its contextual efficiency—a metric combining coherence, time, and precision—was 156% higher than agents based on Llama-3, confirming that modular design and context persistence are the decisive drivers of operational performance.
In short, CAIBench shows that agent architecture acts as the intermediate cognitive layer that transforms linguistic predictions into verifiable tactical reasoning. The direction is clear: the next generation of AI-driven cybersecurity should focus less on scaling models and more on optimizing how agents plan, remember and learn from their own mistakes.
Conclusion: a roadmap for AI in cybersecurity
CAIBench quantifies— for the first time—how agent architecture and contextual reasoning directly impact the operational performance of LLMs applied to cybersecurity. Results show that structure, not model size, is the decisive factor that turns knowledge into coherent action.
Unlike prior benchmarks centered on linguistic accuracy, CAIBench operates as an empirical validation instrument, correlating knowledge, action, and context under reproducible conditions.
Three guiding axes emerge for future intelligent systems in this domain:
- Structural efficiency over model scale.
More parameters no longer guarantee better operational outcomes.
Adaptive planning, persistent memory, and context control influence agent efficacy more directly than brute model size. - Functional over linguistic evaluation.
CAIBench redefines how we measure intelligence: not by textual correctness, but by behavioral consistency.
Its reproducible operational intelligence metric evaluates whether a system understands, decides, and acts coherently under varied scenarios and real threats. - AI applied to cyber-physical environments.
With RCTF2, CAIBench extends evaluation into robotics and CPS, where decisions have physical impact.
This brings in functional safety and physical resilience, essential to validate agents deployed in industrial or critical infrastructures.
Beyond its evaluative value, CAIBench establishes a foundation of engineering metrics useful for calibrating agents, optimizing planning controllers, and improving tool management in real deployments.
Its core contribution is methodological: it turns model comparison into a scientific, verifiable, outcome-oriented process, where performance is analyzed with the rigor of an industrial control system.
Ultimately, CAIBench transforms AI evaluation into a practice of quantitative engineering, where intelligence is measured by its ability to sustain correct decisions under pressure. This consolidates AI-driven cybersecurity as a measurable, reproducible engineering discipline, not a theoretical promise.
CAIBench, el Meta-Benchmark para evaluar agentes de IA en ciberseguridad
El problema del hype frente a la realidad
La integración de modelos de lenguaje en ciberseguridad ha impulsado una ola de herramientas que prometen automatizar el análisis, la defensa y la respuesta ante incidentes. Sin embargo, la mayoría carece de metodologías estandarizadas que permitan medir de forma objetiva su rendimiento real más allá de las métricas lingüísticas tradicionales.
El auge de los LLM —como PentestGPT, Cybersecurity AI (CAI) o XBOW— ha dejado al descubierto una carencia fundamental: no existía un marco unificado que evaluara su eficacia en entornos reales, donde se requiere razonamiento multipaso, manejo contextual y toma de decisiones bajo incertidumbre.
Los benchmarks previos miden aspectos parciales, como comprensión semántica o clasificación de vulnerabilidades, pero no abarcan la complejidad operativa de la ciberseguridad moderna. La consecuencia es una brecha creciente entre el conocimiento teórico de los modelos y su capacidad práctica para actuar como agentes autónomos o asistidos.
En este contexto, CAIBench, desarrollado por Alias Robotics, surge como un meta-benchmark integral orientado a medir de forma reproducible las capacidades cognitivas y operativas de los modelos de IA en tareas de seguridad ofensiva, defensiva y analítica. Su objetivo es evaluar la inteligencia funcional, no solo la lingüística.
CAIBench: un marco integral de evaluación multidimensional
CAIBench es un meta-benchmark modular diseñado para evaluar las capacidades de los modelos de lenguaje y de los agentes inteligentes en tareas de ciberseguridad ofensiva, defensiva y analítica.
A diferencia de benchmarks previos centrados en tareas específicas, CAIBench integra cinco benchmarks complementarios que, en conjunto, permiten observar el comportamiento del sistema desde perspectivas cognitivas, operativas y éticas.
1️⃣ Jeopardy CTF
El módulo Jeopardy CTF se basa en la resolución de desafíos técnicos inspirados en competiciones Capture the Flag.
Evalúa la competencia técnica y la agilidad cognitiva del modelo mediante tareas autocontenidas de análisis, reverse engineering, explotación, descifrado y detección de vulnerabilidades.
Cada prueba incluye trazabilidad del razonamiento (chain of thought), tiempo de resolución y penalizaciones por errores lógicos o repeticiones, lo que permite cuantificar la eficiencia del razonamiento técnico más allá de la exactitud final.
2️⃣ Attack & Defense (A&D)
El módulo más innovador del marco, Attack & Defense (A&D), introduce una metodología multiagente competitiva, en la que dos sistemas de IA se enfrentan en tiempo real bajo condiciones controladas.
Cada agente puede asumir los roles de atacante o defensor, utilizando herramientas, razonamiento estratégico y memoria contextual para alcanzar sus objetivos.
El rendimiento se evalúa mediante métricas operativas como Time to Impact, Time to Mitigate, tasa de falsos positivos/negativos y eficiencia contextual. Dentro de este módulo se incluye RCTF (Robotics CTF 2.0), una extensión que traslada este enfoque a entornos robóticos y sistemas ciberfísicos (CPS), incorporando dimensiones de seguridad funcional y respuesta en tiempo real.
3️⃣ Cyber Range
El módulo Cyber Range replica infraestructuras empresariales y redes OT con servicios activos, tráfico realista y ruido de red controlado.
Permite medir la capacidad de adaptación del agente a entornos complejos y no deterministas, evaluando la cobertura de superficie, la coherencia de las acciones y la resiliencia ante interrupciones o cambios de configuración.
Las métricas se centran en la tasa de detección, la eficiencia de mitigación, el tiempo de recuperación y la robustez operativa.
4️⃣ Knowledge Bench
Este módulo actúa como un componente de referencia teórica, con más de 10 000 ítems tipo QA que abarcan criptografía, seguridad de redes, reverse engineering, normativas y best practices del sector.
A diferencia del Jeopardy CTF, este benchmark no requiere ejecución, sino comprensión y contextualización del conocimiento.
Las métricas incluyen precisión, consistencia intersesión y robustez frente a prompting adversarial, ofreciendo una visión cuantitativa del conocimiento declarativo del modelo.
5️⃣ Privacy Bench (CyberPII-Bench)
El módulo Privacy Bench se centra en la evaluación de privacidad y cumplimiento normativo.
Evalúa la habilidad del modelo para identificar, anonimizar y preservar información personal (PII) en distintos contextos, conforme a las directrices del GDPR y a los estándares europeos.
Se utilizan métricas tradicionales de clasificación (precisión, recall, F1-score), pero también indicadores del equilibrio entre utilidad y privacidad, que permiten medir hasta qué punto el modelo mantiene la proporcionalidad entre precisión y protección.
En conjunto, estos cinco módulos convierten a CAIBench en un entorno de evaluación multidimensional, reproducible y orientado a métricas de impacto real.
Mientras los benchmarks tradicionales miden rendimiento lingüístico, CAIBench cuantifica inteligencia operacional, adaptabilidad contextual y seguridad funcional, proporcionando un marco de análisis coherente con las necesidades actuales de la ciberseguridad basada en IA.
La brecha entre conocimiento y aplicación
Los resultados experimentales de CAIBench evidencian una discrepancia cuantificable entre el conocimiento estático y la capacidad de aplicación operativa de los modelos de lenguaje en tareas de ciberseguridad.
Aunque los LLM han demostrado una rápida expansión del conocimiento técnico, su rendimiento se degrada sistemáticamente cuando deben razonar y actuar de forma autónoma en entornos dinámicos.
En un conjunto de más de 2 000 ejecuciones controladas en distintos módulos del benchmark, los modelos alcanzaron una precisión media del 70-89 % en Knowledge Bench (SecEval, CTIBench, CyberMetric), lo que demuestra un dominio sólido del conocimiento declarativo. Sin embargo, en escenarios activos de ejecución práctica (como Jeopardy CTF con Cybench) las tasas de éxito descienden al 31-46 % para los modelos top, y en escenarios como Cyber Range y Attack & Defense (A&D), las tasas de éxito descendieron al rango del 20-60 %, lo que revela la ausencia de mecanismos robustos de razonamiento multipaso, persistencia de memoria y toma de decisiones adaptativa.
El análisis de trazas y registros muestra que los modelos no especializados tienden a repetir acciones redundantes, reajustar comandos sin contexto y sobrerreaccionar ante retroalimentación incompleta, lo que genera un aumento en la entropía de decisión.
Esto impacta directamente en métricas críticas como el Mean Time to Detect (MTTD) y el Mean Time to Mitigate (MTTM), que resultaron, en promedio, 2,4× más altos que los obtenidos por arquitecturas optimizadas con control de contexto, como alias1 dentro de CAI PRO.
Estos hallazgos apuntan a una conclusión clara: los LLM pueden reconocer vulnerabilidades y proponer mitigaciones, pero aún carecen de la capacidad para secuenciar, priorizar y ejecutar acciones tácticas coherentes.
La brecha entre conocimiento y aplicación no solo delimita el rendimiento actual de la IA en ciberseguridad, sino que marca el principal cuello de botella para el desarrollo de agentes autónomos verdaderamente operativos.
El factor arquitectura: el agente como núcleo de la inteligencia operativa
En las pruebas de CAIBench, dos agentes construidos sobre el mismo modelo base mostraron diferencias de rendimiento de hasta 2,6×, dependiendo únicamente de su arquitectura interna.
Estos resultados confirman que la inteligencia operativa no reside en el modelo por sí solo, sino en cómo se estructura y coordina su entorno de ejecución.
El tamaño del modelo aporta conocimiento, pero la arquitectura del agente determina si ese conocimiento se traduce en acción coherente.
Las diferencias más notables se observaron en tres componentes clave:
la persistencia contextual, que mide cuánto tiempo puede un agente mantener coherencia operativa antes de degradarse;
la orquestación de herramientas, que refleja su capacidad para integrar y ejecutar funciones externas sin error;
y la retroalimentación iterativa, que evalúa la eficiencia con la que detecta y corrige fallos durante la ejecución.
Los agentes que implementan controladores modulares dedicados a planificación, ejecución y validación mostraron menor entropía de decisión y mayor resiliencia en entornos ruidosos.
Por el contrario, los diseños monolíticos basados exclusivamente en prompt chaining o en respuestas únicas sufrieron degradación progresiva conforme el contexto crecía.
El framework CAI PRO, desarrollado por Alias Robotics, ejemplifica esta diferencia.
En su núcleo opera alias1, un modelo de lenguaje especializado en ciberseguridad ofensiva y defensiva, desplegado dentro de un agente con memoria jerárquica y control contextual dinámico.
Durante los ensayos de Attack & Defense (A&D) y Cyber Range, alias1 redujo los tiempos MTTD/MTTM en un 41 % respecto a agentes generalistas equivalentes, manteniendo una tasa de error semántico por debajo del 3 %.
Además, su eficiencia contextual —una métrica que combina coherencia, tiempo y precisión— fue un 156 % superior a la de los agentes basados en Llama-3, lo que confirma que el diseño modular y la persistencia del contexto son los factores determinantes del rendimiento operativo.
En definitiva, CAIBench demuestra que la arquitectura del agente actúa como la capa cognitiva intermedia que transforma predicciones lingüísticas en razonamiento táctico verificable.
Los resultados apuntan a una dirección clara: la próxima generación de sistemas de ciberseguridad basados en IA deberá centrarse menos en ampliar modelos y más en optimizar cómo planifican, recuerdan y aprenden de sus propios errores.
Conclusión: una hoja de ruta para la IA en ciberseguridad
CAIBench cuantifica por primera vez cómo la arquitectura de los agentes y su capacidad de razonamiento contextual impactan directamente en el rendimiento operativo de los LLM aplicados a la ciberseguridad.
Los resultados muestran que la estructura, y no el tamaño del modelo, es el factor decisivo que transforma conocimiento en acción coherente.
A diferencia de benchmarks previos centrados en precisión lingüística, CAIBench actúa como un instrumento de validación empírica, diseñado para correlacionar conocimiento, acción y contexto bajo condiciones reproducibles.
Del análisis surgen tres ejes fundamentales que orientan el desarrollo futuro de sistemas inteligentes en este dominio:
- Eficiencia estructural frente a escala del modelo.
Incrementar parámetros ya no garantiza un mejor desempeño operativo.
Los resultados demuestran que la planificación adaptativa, la memoria persistente y el control de contexto influyen más directamente en la eficacia del agente que la potencia bruta del modelo. - Evaluación funcional frente a evaluación lingüística.
CAIBench redefine cómo se mide la inteligencia: no por la corrección textual, sino por la consistencia del comportamiento.
Su métrica de inteligencia operativa reproducible evalúa si un sistema entiende, decide y actúa de forma coherente ante escenarios variables y amenazas reales. - IA aplicada a entornos ciberfísicos.
Con el módulo RCTF2, CAIBench amplía el alcance de la evaluación hacia la robótica y los sistemas ciberfísicos (CPS), donde la toma de decisiones tiene impacto físico.
Este enfoque introduce dimensiones de seguridad funcional y resiliencia física, esenciales para validar agentes desplegados en infraestructuras industriales o entornos críticos.
Más allá de su valor evaluativo, CAIBench establece una base de métricas de ingeniería útiles para calibrar agentes, optimizar controladores de planificación y mejorar la gestión de herramientas en despliegues reales.
Su principal aportación es metodológica: convierte la comparación de modelos en un proceso científico, verificable y orientado a resultados, en el que el rendimiento puede analizarse con el mismo rigor que un sistema de control industrial.
En definitiva, CAIBench transforma la evaluación de la IA en un proceso de ingeniería cuantitativa, en el que la inteligencia se mide por su capacidad para sostener decisiones correctas bajo presión.
Este enfoque consolida la ciberseguridad basada en IA como una disciplina de ingeniería medible y reproducible, y no como una promesa teórica.