Agent Harness Engineering: AI Agent 执行管控与安全沙箱 原理与最佳实践
Agent Harness Engineering: AI Agent 执行管控与安全沙箱 原理与最佳实践
副标题: 构建可信、可控、可扩展的自主智能体基础设施
版本: 1.0 (2026 年 3 月)
定位: 面向架构师、安全工程师与 AI 基础设施开发者的权威指南
文章目录
- Agent Harness Engineering: AI Agent 执行管控与安全沙箱 原理与最佳实践
-
- 前言:为什么需要 Agent Harness Engineering
-
- 0.1 智能体时代的到来
- 0.2 信任危机:当智能体成为攻击载体
- 0.3 Harness Engineering 的核心使命
- 0.4 本书读者对象
- 0.5 如何阅读本书
- 目录
-
- 第一部分:基础原理篇
- 第二部分:架构设计篇
- 第三部分:安全沙箱篇
- 第四部分:工程实践篇
- 第五部分:前沿展望篇
- 附录
- 第一部分:基础原理篇
- 第 1 章:Agentic AI 的安全范式转移
-
- 1.1 从生成式 AI 到代理式 AI 的威胁面演化
-
- 1.1.1 两代 AI 系统的安全模型对比
- 1.1.2 威胁面扩张的数学模型
- 1.2 混淆的代理人(Confused Deputy)问题
-
- 1.2.1 经典定义与 Agent 时代的演变
- 1.2.2 真实案例分析:金融服务数据外泄(2024)
- 1.2.3 防御策略:语义访问控制
- 1.3 非人身份(NHI)的安全挑战
-
- 1.3.1 NHI 的定义与分类
- 1.3.2 NHI 泄露的典型路径
- 1.3.3 防御策略:NHI 生命周期管理
- 1.4 零信任架构在 Agent 系统中的应用
-
- 1.4.1 零信任核心原则
- 1.4.2 Agent 零信任参考架构
- 1.4.3 实施路线图
- 1.5 本章小结
- 1.6 思考题
- 1.7 延伸阅读
- 第 2 章:Agent 威胁建模与攻击向量分析
-
- 2.1 MITRE ATLAS 框架解读
-
- 2.1.1 ATLAS 框架概述
- 2.1.2 Agent 特定攻击技术映射
- 2.2 提示注入与多步操纵攻击
-
- 2.2.1 直接提示注入
- 2.2.2 间接提示注入
- 2.2.3 多步操纵攻击(Salami Slicing)
- 2.3 记忆投毒与历史腐蚀
-
- 2.3.1 攻击原理
- 2.3.2 记忆投毒的数学模型
- 2.3.3 防御策略
- 2.4 工具滥用与权限升级
-
- 2.4.1 工具滥用的类型
- 2.4.2 权限升级路径
- 2.5 级联失效与供应链攻击
-
- 2.5.1 级联失效模型
- 2.5.2 供应链攻击向量
- 2.6 威胁建模实践:STRIDE 方法应用
- 2.7 本章小结
- 2.8 实战练习
- 2.9 延伸阅读
- 第 3 章:Harness Engineering 核心概念
-
- 3.1 什么是 Agent Harness
-
- 3.1.1 Harness 的核心组件
- 3.2 隔离(Isolation)vs 护栏(Guardrails)
- 3.3 沙箱原语:Linux 内核安全机制
-
- 3.3.1 Namespaces(命名空间)
- 3.3.2 Cgroups(控制组)
- 3.3.3 Seccomp(安全计算模式)
- 3.4 会话管理与状态隔离
-
- 3.4.1 会话生命周期
- 3.4.2 状态持久化策略
- 3.5 本章小结
- 第 4 章:安全基线与合规框架
-
- 4.1 NIST AI 风险管理框架
-
- 4.1.1 NIST AI RMF 核心结构
- 4.1.2 Agent 系统风险映射表
- 4.1.3 实施指南
- 4.2 GDPR 与 AI 数据保护要求
-
- 4.2.1 GDPR 核心原则在 Agent 系统中的适用
- 4.2.2 数据主体权利的技术实现
- 4.2.3 数据保护影响评估(DPIA)
- 4.3 行业最佳实践(OWASP AI Security)
-
- 4.3.1 OWASP Top 10 for LLM Applications (2025 版)
- 4.3.2 OWASP 实施指南:以 LLM08 为例
- 4.4 审计与问责机制设计
-
- 4.4.1 不可篡改日志设计
- 4.4.2 决策追溯机制
- 4.4.3 问责矩阵(RACI)
- 4.5 本章小结
- 4.6 实战练习
- 4.7 延伸阅读
- 第二部分:架构设计篇
- 第 5 章:Agent Harness 参考架构
-
- 5.1 核心组件:执行引擎、策略引擎、监控器
-
- 5.1.1 总体架构图
- 5.1.2 组件职责详解
- 5.2 数据流与控制流设计
-
- 5.2.1 正常执行流程
- 5.2.2 异常处理流程
- 5.3 扩展点与插件机制
-
- 5.3.1 插件架构设计
- 5.3.2 热插拔机制
- 5.4 高可用与容错设计
-
- 5.4.1 故障模式分析
- 5.4.2 容错策略
- 5.4.3 多活部署架构
- 5.5 本章小结
- 5.6 实战练习
- 5.7 延伸阅读
- 第 6 章:执行引擎设计
-
- 6.1 代码执行模型:同步 vs 异步
-
- 6.1.1 同步执行模型
- 6.1.2 异步执行模型
- 6.1.3 混合执行模型
- 6.2 资源配额管理(CPU、内存、磁盘、网络)
-
- 6.2.1 资源配额模型
- 6.2.2 配额 Enforcement 实现
- 6.3 超时控制与优雅终止
-
- 6.3.1 多层超时策略
- 6.3.2 优雅终止协议
- 6.4 会话持久化与状态恢复
-
- 6.4.1 会话状态模型
- 6.4.2 状态持久化实现
- 6.4.3 检查点与恢复
- 6.5 本章小结
- 6.6 实战练习
- 6.7 延伸阅读
- 第 7 章:策略引擎与权限管控
-
- 7.1 基于能力的访问控制(CBAC)
-
- 7.1.1 CBAC vs RBAC
- 7.1.2 能力模型实现
- 7.2 语义访问控制:超越网络层权限
-
- 7.2.1 语义访问控制架构
- 7.2.2 意图理解实现
- 7.2.3 上下文感知策略
- 7.3 动态策略评估与实时拦截
-
- 7.3.1 策略评估引擎
- 7.3.2 实时拦截器
- 7.4 策略语言设计(Rego、CEDAR 实践)
-
- 7.4.1 Rego 语言基础
- 7.4.2 Cedar 语言基础
- 7.4.3 策略测试与验证
- 7.5 本章小结
- 7.6 实战练习
- 7.7 延伸阅读
- 第 8 章:监控与可观测性
-
- 8.1 Agent 行为日志结构化设计
-
- 8.1.1 日志层级模型
- 8.1.2 结构化日志格式
- 8.1.3 敏感数据脱敏
- 8.2 分布式追踪在 multi-agent 系统中的应用
-
- 8.2.1 追踪模型
- 8.2.2 OpenTelemetry 集成
- 8.2.3 Multi-Agent 追踪上下文传播
- 8.3 异常检测:基于规则 vs 基于 ML
-
- 8.3.1 基于规则的检测
- 8.3.2 基于 ML 的检测
- 8.3.3 混合检测策略
- 8.4 实时告警与自动化响应
-
- 8.4.1 告警分级
- 8.4.2 告警聚合与去重
- 8.5 本章小结
- 8.6 实战练习
- 8.7 延伸阅读
- 第三部分:安全沙箱篇
- 第四部分:工程实践篇
- 第五部分:前沿展望篇
- 完整书籍统计
- 获取完整书籍
- 附录 A:安全配置检查清单
-
- A.1 沙箱配置检查清单
- A.2 策略配置检查清单
- 附录 B:代码示例索引
- 后记:致读者
前言:为什么需要 Agent Harness Engineering
0.1 智能体时代的到来
我们正站在计算范式转移的历史节点上。2024-2026 年间,AI 系统从被动的内容生成器(Generative AI)演变为主动的行动执行者(Agentic AI)。这一转变的根本特征是:
- 从”说什么”到”做什么”: 传统 LLM 输出文本,Agent 执行动作
- 从”会话级”到”持久化”: Agent 拥有长期记忆和跨会话状态
- 从”只读”到”读写”: Agent 直接操作数据库、API、文件系统
- 从”单一体”到”多智能体协作”: 复杂任务由多个 specialized agents 协同完成
根据 2026 年初的行业数据:
- Cursor 等 AI 编程助手每日生成近 10 亿行被接受的代码
- 企业级 Agent 部署在 18 个月内增长了 300%
- 73% 的生产环境 Agent 拥有对关键业务系统的写权限
0.2 信任危机:当智能体成为攻击载体
然而,能力的提升伴随着风险的指数级增长。2024-2026 年间发生的多起标志性安全事件揭示了 Agent 系统的脆弱性:
© 版权声明
文章版权归作者所有,未经允许请勿转载。