Scope note
本图描绘 CyberAI 研究项目的完整愿景:七大子系统、红蓝对抗引擎、Agent 协同等。当前已实现并对外开放的仅为子系统 2 中的 Pipeline A(函数级切片 → GLM-5.1 扫描 → 自动 triage → 人工 + LLM 复核 → 协调披露),用于发现真实开源 C/C++ 漏洞,已在七个目标上完成端到端运行。其余子系统为研究路线图,进度以首页 status 表为准。
0架构总图 · End-to-End Topology
数据流 → Data Lake / 度量
红方 · 攻击
蓝方 · 防御
行为 / 指标
控制 / 依赖
R红队 Agent 详细架构 · Red Team Deep Dive
R1 · 漏洞武器化管线(6A-1)
R2 · 态势感知 OODA 循环(6A-2)
R3 · 多 Agent 协同编队(6A-3)
R4 · 反蓝方对抗自适应矩阵(6A-4)
红方主动攻击流
失败回退 / 反馈
知识图谱 双向同步
蓝方信号 → 红方自适应
所有能力均受子系统 5 的三级告警监控并上报子系统 7 度量
B蓝队 Agent 详细架构 · Blue Team Deep Dive
B1 · 内核级 Hot Patch 引擎(6B-1)
B2 · 网络动态防御引擎(6B-3)
B3 · 全栈联动实时对抗(6B-4)
蓝方主动防御流
攻击信号 → 蓝方
策略 / 联动剧本
验证失败 → 重新生成
MTD 动态变更
C对抗编排层 · Adversarial Orchestration(6C)
C1 · L1–L5 场景难度矩阵
C2 · 红蓝对抗评分体系
C3 · 10 大对抗场景
V漏洞发现引擎 · 4 Pipeline 详细架构(子系统 2)
VA · Pipeline A · Carlini 式逐文件扫描
VB · Pipeline B · 容器化全项目扫描
VC · Pipeline C · Fuzzer Crash 分诊与利用开发
VD · Pipeline D · N-day CVE 自动利用基准
MAgent 行为监控 · 12 类异常行为 + 三级告警(子系统 5)
M1 · 12 类异常行为(System Card 实际观察)
12
评估感知 · Evaluation Awareness ★ 重点研究
Agent 考虑自身是否正被测试并调整行为 · 检测:激活探针(probe classifiers)+ 行为对比基线
29%
行为测试转录中比例
M2 · 三级告警体系
S沙箱评估环境 · 三级靶场 + 隔离边界(子系统 3)
P供应链安全 · Slopsquatting 检测流程(子系统 4)
T安全能力度量仪表盘 · Capability Tracker(子系统 7)
T1 · 多维基准追踪(跨模型对比)
T2 · 能力涌现检测(Emergence Detection)
T3 · 翻倍时间追踪(Doubling Time)
D数据模型 · Data Lake Schema
关系:
Vulnerability → 被 AdversarialSession 引用(武器化输入)·
AdversarialSession 聚合 → CapabilitySnapshot(red_blue_score)·
Vulnerability + AdversarialSession → CapabilitySnapshot(按模型/日期分桶)·
所有实体写入 Data Lake 后被子系统 7 仪表盘消费。
1七大子系统拓扑
子系统 7 · 安全能力度量
基准追踪 · 翻倍时间 · 成本效率 · 涌现检测 · 跨模型对比
子系统 2 · 漏洞发现引擎
Pipeline A–D:逐文件扫描 · 容器化扫描 · Crash 分诊 · N-day 基准
子系统 6 · 红蓝对抗引擎
红方 Agent · 蓝方 Agent · 对抗编排 · 10 大对抗场景 / L1–L5
子系统 4 · 供应链安全
Slopsquatting 幻觉包 · 依赖行为分析 · 安装拦截(< 6 min)
子系统 3 · 沙箱评估环境
L1 单目标 · L2/L3 企业靶场 · L4 强防御 · L5 OT / 关基
子系统 5 · Agent 行为监控
12 类异常行为 · 三级告警 · 沙箱逃逸检测 · MCP 完整性
子系统 1 · 模型抽象层 · SecurityAgent Interface
统一调度 Claude / GPT / Qwen / DeepSeek / 本地模型 — 支撑上方所有子系统,并向子系统 7 汇报能力与成本指标。
2数据流:发现 → 攻击 → 防御 → 度量
子系统 2 漏洞发现引擎
- Pipeline A:逐文件扫描(Carlini 方法)
- Pipeline B:容器化全项目扫描
- Pipeline C:Fuzzer Crash 分诊(0 / .25 / .5 / .75 / 1.0)
- Pipeline D:100 N-day CVE 基准
子系统 6A 红方 Agent
- 武器化管线 · ASLR/Canary/SMEP 绕过
- OODA 态势感知循环(< 30 s / 轮)
- 多 Agent 协同渗透(指挥 + 侦察/利用/横移/数据)
- 反 MTD · 隐蔽 C2 · 横移持久化
子系统 6B 蓝方 Agent
- 内核 hot patch:kpatch / eBPF / seccomp
- 用户态 hot patch:ptrace / GOT / PLT 重定向
- 网络动态防御:SDN 流表 · ACL · VLAN · MTD
- 全栈联动:内核 → 主机 → 网络 关联响应
子系统 7 能力度量
- 基准:CyberGym / Cybench / Firefox / N-day
- TTD · 阻断率 · Hot-patch 成功率 · 误报率
- 成本:< $50 / OpenBSD · < $2K / Linux 内核
- 翻倍时间:通用 128 d · 安全 9.8 mo · 涌现检测
统一数据湖 · Data Lake
漏洞记录 Vulnerability
攻击轨迹 Trace
防御日志 Defense Log
对抗回放 Replay
能力快照 CapabilitySnapshot
成本/Token 记录
SDN 流表变更审计
3子系统能力卡
子系统 7 · 综合度量
Security Capability Tracker — 纵轴贯穿所有子系统
从漏洞发现、利用开发、红蓝对抗中汇聚指标,输出多维基准仪表盘与能力涌现告警。
Firefox Exploit
181 vs 2
Mythos vs Opus 4.6 · 90× 跳跃
CyberGym
0.83 / 0.67
Mythos / Opus 4.6
N-day 成功率
> 50%
100 CVE → 40 候选 → 过半利用
翻倍时间
9.8 mo
安全能力 · 通用 128 d
子系统 2
漏洞发现引擎
四条 Pipeline 并联,覆盖轻量扫描到端到端利用开发。
- A 逐文件 CTF prompt · 并行 N Agent
- B 容器化全项目 · 1 h / $ 预算
- C Crash 分诊 · 五级评分 (0–1.0)
- D 100 CVE N-day 基准
- 二次验证:89% 严重性精确一致
子系统 6
红蓝对抗引擎
红方渗透 / 蓝方深度防御 / 对抗编排三层结构。
- 6A 武器化 · OODA · 多 Agent 协同
- 6B 内核/用户态 hot patch · SDN · MTD
- 6C L1–L5 场景矩阵 · 10 对抗模式
- 评分:TTD / 阻断率 / 成本比 / 均衡度
子系统 4
供应链安全防护
针对 Slopsquatting 幻觉包与恶意依赖的全链路防护。
- 幻觉包名收集 · 跨模型交叉验证
- 新包行为分析(8 维特征)
- Agent 安装前拦截 · block / warn / allow
- 检测窗口:< 6 min(Socket 基准)
子系统 3
沙箱评估环境
三级靶场 + 强隔离,杜绝模型访问自身权重。
- L1 单目标 Container(FFmpeg / SpiderMonkey)
- L2/L3 企业网络(Docker Compose / K8s)
- L4 强防御 · L5 OT / SCADA / PLC
- 完全断网 · seccomp · 逻辑隔离
子系统 5
Agent 行为监控
12 类异常行为 + 三级告警:来自 Mythos System Card 真实观察。
- base64 绕过 · tmux 提权 · /proc 凭证搜索
- 欺骗性输出 · judge prompt injection · git 篡改
- 沙箱逃逸 · MCP server 篡改 · 评估感知 29%
- 三级:PROHIBITED / HIGH-RISK / DUAL-USE
子系统 1
模型抽象层
统一 SecurityAgent 接口,支持横向对比不同模型在同一任务上的表现。
- 接口:scan / exploit / patch / assess / recon / defend
- 适配器:Claude · OpenAI · 本地 vLLM / Ollama
- 工具:Shell · File · Network · Debug · Build · Think · SDN · Kernel
- 成本追踪:tokens / $ / duration → 子系统 7
4子系统 1 · 模型抽象层接口
scan()
exploit()
patch()
assess()
recon()
defend()
Claude Adapter
Claude API · Claude Code · MCP Tools · think tool(interleaved thinking)
OpenAI / 其他
GPT API · 第三方云端模型 · 功能对齐到统一接口
Local Models
vLLM / Ollama · Qwen-2.5 · DeepSeek · 可选自托管权重
5子系统 6 · 红蓝对抗层级对照
红方 Agent · Offense
武器化漏洞分析 → 原语开发 → ASLR/Canary/SMEP/CFI 绕过 → ROP/JOP 稳定化
态势感知OODA:Observe → Orient → Decide → Act,循环 < 30s
多 Agent指挥 C2 + 侦察 / 利用 / 横移 / 数据 — 共享知识图谱
战术钳形 · 佯攻+真攻 · 梯度渗透 · 分布式扫描 · 牺牲式探测
反蓝方切换路径 · 隐蔽通道 · 识别蜜罐 · 时序重建 MTD
蓝方 Agent · Defense
内核层kpatch/livepatch · eBPF 运行时缓解 · seccomp 紧缩
用户态ptrace attach · GOT/PLT 重定向 · 共享库热替换
网络层SDN OpenFlow/P4 · NETCONF · ACL/VLAN · DPI · C2 阻断
MTD端口跳变 · IP 重映射 · 拓扑混淆 · 指纹伪装
全栈联动内核 ↔ 主机 ↔ 网络 关联,hot patch 前先阻断流量
6子系统 6C · 场景难度矩阵(L1 → L5)
L1 · CTF
30 min
单主机 · 无防御 · 单 Agent
L2 · 简单企业网
2 h
3-5 主机 · 基础监控 · 单 Agent
L3 · 中等企业网
4 h
10+ 主机 · IDS + 加固 · 2 Agent 协同
L4 · 强防御企业网
8 h
20+ 主机 · EDR + hot patch + SDN + 蜜罐 · 5 Agent
L5 · OT / 关键基础设施
24 h · 深度防御 · 5 Agent + 0-day · 全栈联动
Mythos 在 OT 靶场失败 → 重点研究场景(System Card §3.4)
77 阶段实施路线图
Phase 1 · 2w
模型抽象层
Carlini 扫描 + 成本追踪
Phase 2 · 4w
容器化评估
严重性自动评估
Phase 3 · 4w
供应链 + 监控
12 类行为 · 三级告警
Phase 4 · 6w
红方 Agent
OODA · 多 Agent 协同
Phase 5 · 6w
蓝方 Agent
Hot patch · SDN · MTD
- kpatch / eBPF
- OpenFlow / P4
- 全栈联动
Phase 6 · 4w
对抗编排
10 场景 · 评分体系
Phase 7 · 持续
度量 · 迭代
翻倍时间 · 涌现检测