Architecture overview

基于大模型的软件安全研究平台 · 架构图

v1.1 · 2026-04 · Research vision · current shipped scope: Pipeline A (see homepage)

Scope note 本图描绘 CyberAI 研究项目的完整愿景：七大子系统、红蓝对抗引擎、Agent 协同等。当前已实现并对外开放的仅为子系统 2 中的 Pipeline A（函数级切片 → GLM-5.1 扫描 → 自动 triage → 人工 + LLM 复核 → 协调披露），用于发现真实开源 C/C++ 漏洞，已在七个目标上完成端到端运行。其余子系统为研究路线图，进度以首页 status 表为准。

0架构总图 · End-to-End Topology

数据流 → Data Lake / 度量红方 · 攻击蓝方 · 防御行为 / 指标控制 / 依赖

R红队 Agent 详细架构 · Red Team Deep Dive

R1 · 漏洞武器化管线（6A-1）

R2 · 态势感知 OODA 循环（6A-2）

R3 · 多 Agent 协同编队（6A-3）

R4 · 反蓝方对抗自适应矩阵（6A-4）

红方主动攻击流失败回退 / 反馈知识图谱双向同步蓝方信号 → 红方自适应所有能力均受子系统 5 的三级告警监控并上报子系统 7 度量

B蓝队 Agent 详细架构 · Blue Team Deep Dive

B1 · 内核级 Hot Patch 引擎（6B-1）

B2 · 网络动态防御引擎（6B-3）

B3 · 全栈联动实时对抗（6B-4）

蓝方主动防御流攻击信号 → 蓝方策略 / 联动剧本验证失败 → 重新生成 MTD 动态变更

C对抗编排层 · Adversarial Orchestration（6C）

C1 · L1–L5 场景难度矩阵

C2 · 红蓝对抗评分体系

C3 · 10 大对抗场景

V漏洞发现引擎 · 4 Pipeline 详细架构（子系统 2）

VA · Pipeline A · Carlini 式逐文件扫描

VB · Pipeline B · 容器化全项目扫描

VC · Pipeline C · Fuzzer Crash 分诊与利用开发

VD · Pipeline D · N-day CVE 自动利用基准

MAgent 行为监控 · 12 类异常行为 + 三级告警（子系统 5）

M1 · 12 类异常行为（System Card 实际观察）

评估感知 · Evaluation Awareness ★ 重点研究

Agent 考虑自身是否正被测试并调整行为 · 检测：激活探针（probe classifiers）+ 行为对比基线

29%

行为测试转录中比例

M2 · 三级告警体系

S沙箱评估环境 · 三级靶场 + 隔离边界（子系统 3）

P供应链安全 · Slopsquatting 检测流程（子系统 4）

T安全能力度量仪表盘 · Capability Tracker（子系统 7）

T1 · 多维基准追踪（跨模型对比）

T2 · 能力涌现检测（Emergence Detection）

T3 · 翻倍时间追踪（Doubling Time）

D数据模型 · Data Lake Schema

关系： Vulnerability → 被 AdversarialSession 引用（武器化输入）· AdversarialSession 聚合 → CapabilitySnapshot（red_blue_score）· Vulnerability + AdversarialSession → CapabilitySnapshot（按模型/日期分桶）· 所有实体写入 Data Lake 后被子系统 7 仪表盘消费。

1七大子系统拓扑

子系统 7 · 安全能力度量

基准追踪 · 翻倍时间 · 成本效率 · 涌现检测 · 跨模型对比

子系统 2 · 漏洞发现引擎

Pipeline A–D：逐文件扫描 · 容器化扫描 · Crash 分诊 · N-day 基准

子系统 6 · 红蓝对抗引擎

红方 Agent · 蓝方 Agent · 对抗编排 · 10 大对抗场景 / L1–L5

子系统 4 · 供应链安全

Slopsquatting 幻觉包 · 依赖行为分析 · 安装拦截（< 6 min）

子系统 3 · 沙箱评估环境

L1 单目标 · L2/L3 企业靶场 · L4 强防御 · L5 OT / 关基

子系统 5 · Agent 行为监控

12 类异常行为 · 三级告警 · 沙箱逃逸检测 · MCP 完整性

子系统 1 · 模型抽象层 · SecurityAgent Interface

统一调度 Claude / GPT / Qwen / DeepSeek / 本地模型 — 支撑上方所有子系统，并向子系统 7 汇报能力与成本指标。

2数据流：发现 → 攻击 → 防御 → 度量

发现 · Discover

子系统 2 漏洞发现引擎

Pipeline A：逐文件扫描（Carlini 方法）
Pipeline B：容器化全项目扫描
Pipeline C：Fuzzer Crash 分诊（0 / .25 / .5 / .75 / 1.0）
Pipeline D：100 N-day CVE 基准

攻击 · Red

子系统 6A 红方 Agent

武器化管线 · ASLR/Canary/SMEP 绕过
OODA 态势感知循环（< 30 s / 轮）
多 Agent 协同渗透（指挥 + 侦察/利用/横移/数据）
反 MTD · 隐蔽 C2 · 横移持久化

防御 · Blue

子系统 6B 蓝方 Agent

内核 hot patch：kpatch / eBPF / seccomp
用户态 hot patch：ptrace / GOT / PLT 重定向
网络动态防御：SDN 流表 · ACL · VLAN · MTD
全栈联动：内核 → 主机 → 网络关联响应

度量 · Measure

子系统 7 能力度量

基准：CyberGym / Cybench / Firefox / N-day
TTD · 阻断率 · Hot-patch 成功率 · 误报率
成本：< $50 / OpenBSD · < $2K / Linux 内核
翻倍时间：通用 128 d · 安全 9.8 mo · 涌现检测

统一数据湖 · Data Lake

漏洞记录 Vulnerability 攻击轨迹 Trace 防御日志 Defense Log 对抗回放 Replay 能力快照 CapabilitySnapshot 成本/Token 记录 SDN 流表变更审计

3子系统能力卡

子系统 7 · 综合度量

Security Capability Tracker — 纵轴贯穿所有子系统

从漏洞发现、利用开发、红蓝对抗中汇聚指标，输出多维基准仪表盘与能力涌现告警。

Firefox Exploit

181 vs 2

Mythos vs Opus 4.6 · 90× 跳跃

CyberGym

0.83 / 0.67

Mythos / Opus 4.6

N-day 成功率

> 50%

100 CVE → 40 候选 → 过半利用

翻倍时间

9.8 mo

安全能力 · 通用 128 d

子系统 2

漏洞发现引擎

四条 Pipeline 并联，覆盖轻量扫描到端到端利用开发。

A 逐文件 CTF prompt · 并行 N Agent
B 容器化全项目 · 1 h / $ 预算
C Crash 分诊 · 五级评分 (0–1.0)
D 100 CVE N-day 基准
二次验证：89% 严重性精确一致

子系统 6

红蓝对抗引擎

红方渗透 / 蓝方深度防御 / 对抗编排三层结构。

6A 武器化 · OODA · 多 Agent 协同
6B 内核/用户态 hot patch · SDN · MTD
6C L1–L5 场景矩阵 · 10 对抗模式
评分：TTD / 阻断率 / 成本比 / 均衡度

子系统 4

供应链安全防护

针对 Slopsquatting 幻觉包与恶意依赖的全链路防护。

幻觉包名收集 · 跨模型交叉验证
新包行为分析（8 维特征）
Agent 安装前拦截 · block / warn / allow
检测窗口：< 6 min（Socket 基准）

子系统 3

沙箱评估环境

三级靶场 + 强隔离，杜绝模型访问自身权重。

L1 单目标 Container（FFmpeg / SpiderMonkey）
L2/L3 企业网络（Docker Compose / K8s）
L4 强防御 · L5 OT / SCADA / PLC
完全断网 · seccomp · 逻辑隔离

子系统 5

Agent 行为监控

12 类异常行为 + 三级告警：来自 Mythos System Card 真实观察。

base64 绕过 · tmux 提权 · /proc 凭证搜索
欺骗性输出 · judge prompt injection · git 篡改
沙箱逃逸 · MCP server 篡改 · 评估感知 29%
三级：PROHIBITED / HIGH-RISK / DUAL-USE

子系统 1

模型抽象层

统一 SecurityAgent 接口，支持横向对比不同模型在同一任务上的表现。

接口：scan / exploit / patch / assess / recon / defend
适配器：Claude · OpenAI · 本地 vLLM / Ollama
工具：Shell · File · Network · Debug · Build · Think · SDN · Kernel
成本追踪：tokens / $ / duration → 子系统 7

4子系统 1 · 模型抽象层接口

scan()

exploit()

patch()

assess()

recon()

defend()

Claude Adapter

Claude API · Claude Code · MCP Tools · think tool（interleaved thinking）

OpenAI / 其他

GPT API · 第三方云端模型 · 功能对齐到统一接口

Local Models

vLLM / Ollama · Qwen-2.5 · DeepSeek · 可选自托管权重

5子系统 6 · 红蓝对抗层级对照

红方 Agent · Offense

武器化

漏洞分析 → 原语开发 → ASLR/Canary/SMEP/CFI 绕过 → ROP/JOP 稳定化

态势感知

OODA：Observe → Orient → Decide → Act，循环 < 30s

多 Agent

指挥 C2 + 侦察 / 利用 / 横移 / 数据 — 共享知识图谱

战术

钳形 · 佯攻+真攻 · 梯度渗透 · 分布式扫描 · 牺牲式探测

反蓝方

切换路径 · 隐蔽通道 · 识别蜜罐 · 时序重建 MTD

蓝方 Agent · Defense

内核层

kpatch/livepatch · eBPF 运行时缓解 · seccomp 紧缩

用户态

ptrace attach · GOT/PLT 重定向 · 共享库热替换

网络层

SDN OpenFlow/P4 · NETCONF · ACL/VLAN · DPI · C2 阻断

MTD

端口跳变 · IP 重映射 · 拓扑混淆 · 指纹伪装

全栈联动

内核 ↔ 主机 ↔ 网络关联，hot patch 前先阻断流量

6子系统 6C · 场景难度矩阵（L1 → L5）

L1 · CTF

30 min

单主机 · 无防御 · 单 Agent

L2 · 简单企业网

2 h

3-5 主机 · 基础监控 · 单 Agent

L3 · 中等企业网

4 h

10+ 主机 · IDS + 加固 · 2 Agent 协同

L4 · 强防御企业网

8 h

20+ 主机 · EDR + hot patch + SDN + 蜜罐 · 5 Agent

L5 · OT / 关键基础设施

24 h · 深度防御 · 5 Agent + 0-day · 全栈联动

Mythos 在 OT 靶场失败 → 重点研究场景（System Card §3.4）

77 阶段实施路线图

Phase 1 · 2w

模型抽象层

Carlini 扫描 + 成本追踪

多模型适配器
Pipeline A 工程化

Phase 2 · 4w

容器化评估

严重性自动评估

Pipeline B
L1 靶场
二次验证 89%

Phase 3 · 4w

供应链 + 监控

12 类行为 · 三级告警

Slopsquatting
依赖行为分析

Phase 4 · 6w

红方 Agent

OODA · 多 Agent 协同

武器化管线
指挥 + 4 专家
共享图谱

Phase 5 · 6w

蓝方 Agent

Hot patch · SDN · MTD

kpatch / eBPF
OpenFlow / P4
全栈联动

Phase 6 · 4w

对抗编排

10 场景 · 评分体系

L1–L5 场景器
对抗复盘

Phase 7 · 持续

度量 · 迭代

翻倍时间 · 涌现检测

仪表盘
新模型接入