2026 · AI 工程新范式

Harness
Engineering

驾驭工程 · The Art of Controlling AI

从单行 API 调用到万人使用的智能体系统——我们正站在 AI 工程范式的第三次跃迁关口。 Harness Engineering 不是提示词技巧,而是为 AI 模型建造"驾驭环境"的完整工程学。

"Agents aren't hard; the Harness is hard."
— Ryan Lopopolo, OpenAI · 2026
1M+
OpenAI 实验代码行数
1/10
传统开发时间
+26%
LangChain 仅改 Harness 的得分提升
1300+
Stripe 每周 AI 合并 PR 数
Scroll to Explore
Chapter 01

历史演变:四个时代

从 GPT-3 的基础调用,到如今能在真实生产系统中自主运行的 AI 工程师——这条路经历了四次质变。

2020 — 2021
Era 0
基础 API 调用时代
GPT-3 于 2020 年 5 月问世,开发者通过 API 发送指令获取回复,上下文窗口仅 4K tokens,交互单轮无状态。 论文《Language Models are Few-Shot Learners》首次展示 few-shot 学习:在 prompt 中放入少量示例,模型无需微调即可完成新任务。 这是工程认知的起点——大家意识到措辞本身就是变量
API 调用即全部工程
2022 — 2024
Era 1
提示词工程时代(Prompt Engineering)
ChatGPT 于 2022 年 11 月病毒式爆发,"提示词工程师"成为最热门职业之一。 三篇奠基论文确立了时代方法论:
· Chain-of-Thought(Wei et al. 2022)—— 引入中间推理步骤,模型推理能力飞跃
· ReAct(Yao et al. 2022)—— Thought→Action→Observation 循环,工具调用基础
· RAG(Lewis et al. 2020)—— 检索增强生成,外部知识注入主流化
Anthropic 将 XML 标签(<example>、<thinking>)规范化为结构原语。 瓶颈:优化单次指令,无法解决多步骤、跨会话、工具可靠性问题。
Prompt = 全部杠杆
2024 — 2025
Era 2
上下文工程时代(Context Engineering)
Andrej Karpathy(OpenAI 联合创始人)提出:"The art of carefully designing and managing the entire context window for LLMs."
上下文窗口从 4K 扩展至 128K → 百万 tokens。工程重心从"如何措辞"转向"模型需要什么信息"。
核心技术:上下文压缩(在 token 上限前摘要历史)、即时加载(维护轻量标识符,运行时按需拉取数据)、结构化记忆(NOTES.md / memory tools)。 Anthropic 正式定义:"Curating and maintaining the optimal set of tokens during LLM inference." 瓶颈:仍将 Agent 视为基本无状态——无法解决多会话连贯性、自我评估失效、生产级可靠性。
Context = 工程核心
2025 — 至今
Era 3 ✦
驾驭工程时代(Harness Engineering)
催化剂:Claude Code、Cursor、Devin 等 AI 编码 Agent 开始在真实生产代码库中执行真实且重大的操作——错误成本从"AI 说废话"升级为"AI 删了生产数据库"。
OpenAI 验证(2025.8—2026.2):3 名工程师(最终 7 人)用 5 个月、~1500 个 PR、零手写源代码,构建一个拥有百万行代码、日活数百人的内部产品,预计是传统开发效率的 10 倍。
LangChain 验证:仅改变 Harness、不换模型,TerminalBench 得分从 52.8% 升至 66.5%,排名从 Top 30 跃至 Top 5。
Harness Engineering 在 2026 年 GDPS(全球开发者先锋峰会)获得正式命名,Martin Fowler 发布权威综合定义。
Harness = 模型之外的一切
Chapter 02

核心原理

Harness 源自马具——驾驭强大但不可预测的动物所需的全套装备。马是 AI 模型,Harness 是其他一切。

Agent = Model + Harness
模型是算力核心,Harness 是让算力可用的全部工程基础设施
🏗️
架构即护栏
刚性的结构约束反而提升 Agent 性能,因为它缩小了解决方案空间。 OpenAI 的依赖层:Types → Config → Repo → Service → Runtime → UI, 通过结构测试机械化强制合规。Stripe 采用"确定性节点 + 智能体节点"交替蓝图架构,前者保存 token、减少错误并确保关键步骤必然发生。
📋
文档即基础设施
Agent 的唯一现实是它上下文中能访问到的内容——任何在此之外的知识对它而言等同于不存在。 AGENTS.md(OpenAI 发起,2025 年 8 月开源,2025 年 12 月捐赠 Linux 基金会)和 CLAUDE.md(Anthropic)是 Agent 可读的项目说明书,已被 60,000+ 开源项目采用。
🔄
反馈回路
闭环系统将 Agent 输出进行验证,并将修正系统性地反馈回去。 OpenAI 将 Chrome DevTools 接入 Agent 运行时,让 Codex 能截图并验证自己的 UI 修复。 Stripe 的"两次 CI 失败即升级人工"规则,防止无限重试循环。
🧬
熵管理(防漂移)
Agent 生成的代码会复制现有模式,包括不良模式,随时间积累漂移。 OpenAI 的解法:将"黄金原则"直接编码进仓库 + 定期调度后台任务扫描偏差、更新质量等级、开启针对性重构 PR——大多数 PR 在一分钟内被审查并自动合并,替代了每周五 20% 时间的人工清理。
🧠
上下文焦虑防治
Anthropic 发现 Agent 在上下文窗口接近上限时会过早结束任务("上下文焦虑")。 解决方案:结构化交接的上下文重置——Agent 开始新会话时执行标准化启动序列: 检查工作目录 → 读取进度文件 → 读取 git 历史 → 选定下一功能 → 运行基础测试 → 实施
⚖️
生成器-评估器分离
Anthropic 指出:"当被要求评估自己的工作时,AI 模型是一个病态乐观主义者。" 灵感来自 GAN 架构:让独立的 Evaluator Agent 使用 Playwright 与真实运行的应用交互,对照预协商的合同标准打分,而非由生成它的 Agent 自评。
Guides · 前馈机制
引导(Feedforward)
行动前的预期性控制——提升初次结果质量
  • 系统提示词(System Prompt)
  • AGENTS.md / CLAUDE.md 文件
  • 架构约束文档
  • 工具与函数定义
  • 上下文窗口精心编排的信息
Sensors · 反馈机制
传感器(Feedback)
行动后的观测控制——实现自我纠错
  • 计算传感器:测试套件、Linter、类型检查器(确定性、毫秒级)
  • 推理传感器:LLM 代码审查、语义验证(更慢但语义丰富)
  • 浏览器自动化截图验证
  • 全栈可观测性(日志/指标/追踪)
Chapter 03

实操框架 · 可直接使用的模板

从 ReAct 循环到 Anthropic 三智能体架构,这些经过生产验证的框架可以直接应用到你的项目中。

ReAct 基础循环
来源:Yao et al. 2022 · arXiv:2210.03629 · ICLR 2023
将推理轨迹(Reasoning)与行动调用(Acting)交织,防止幻觉(推理锚定模型)、支持动态计划调整(新观测改变计划)并提供可审计的决策轨迹。 纯 CoT 缺乏外部锚定会幻觉,纯 Action 缺乏推理无法规划;ReAct+CoT 在 HotPotQA 和 Fever 上均优于两者单独使用。
# ReAct 提示词框架(在 System Prompt 中声明)

You are an AI assistant that reasons step-by-step before acting.
Always follow this loop:

Thought: [Reason about the current state. What do you know? What's missing?
         What's the best next step?]

Action: [Choose ONE tool: Search[query] | Read[file_path] |
         Execute[command] | Write[file_path, content] | Finish[answer]]

Observation: [The result returned from the tool — do not fabricate this]

... repeat Thought → Action → Observation until confident ...

Final Answer: [Concise conclusion grounded in actual observations]

Rules:
- Never skip the Thought step — reasoning before acting prevents mistakes
- If an Observation surprises you, update your plan in the next Thought
- Only use Finish[] when you have directly verified the answer via tools
Harness 系统提示词结构模板
来源:Anthropic Prompt Engineering 文档 · 生产最佳实践
Anthropic 推荐的组件顺序:角色设定 → 语调 → 背景数据 → 任务规则。 系统消息最适合高层场景设定和工具定义;详细指令放在 human turn(Claude 对人类轮次的遵循优于系统轮次)。 XML 标签提供可靠的结构分隔,因为 Claude 在含 XML 结构的数据上训练。
# ═══ SYSTEM PROMPT TEMPLATE FOR HARNESS AGENTS ═══

# 1. ROLE & MISSION
You are [专业角色,如 "a senior software engineer specializing in Python backends"].
Your mission: [一句话核心任务]

# 2. BEHAVIORAL REGISTER
Tone: Professional but concise. No filler. Respond in the same language as the user.

# 3. BACKGROUND DATA
<project_context>
  Tech stack: [语言/框架/数据库]
  Repository structure: [关键目录说明]
  Key constraints: [架构边界、禁止操作]
</project_context>

# 4. TASK RULES
<rules>
  - NEVER remove or modify tests — treat test failures as information, not obstacles
  - ALWAYS verify work end-to-end before marking complete
  - Do not stop due to token budget concerns; save progress to memory and continue
  - After context reset, begin: pwd → read progress file → git log → select task
  - When uncertain, prefer asking one targeted question over making assumptions
</rules>

# 5. CONTEXT RESET PROTOCOL (prevents context anxiety)
<startup_sequence>
  1. Run `pwd` — confirm working directory
  2. Read claude-progress.txt — load completed work state
  3. Run `git log --oneline -20` — understand recent changes
  4. Read feature_list.json — identify highest-priority incomplete feature
  5. Run basic smoke tests — confirm current state
  6. Implement ONE feature end-to-end, then commit and update progress
</startup_sequence>
AGENTS.md / CLAUDE.md 模板
来源:OpenAI 开源规范(2025.8 发布,2025.12 捐赠 Linux Foundation)· 被 60,000+ 项目采用
有效文件优先顺序:可粘贴的命令 > 模糊工具名;真实代码片段 > 描述性散文;明确边界 > 隐性假设。 警告:自动生成的 AGENTS.md 使任务成功率降低、成本增加 23%;人工编写使成功率提升约 4%。质量 > 完整性。
# AGENTS.md — AI Agent 项目说明书
# 放置于仓库根目录;子目录中的同名文件会覆盖父目录规则

## Build & Run
```bash
# 安装依赖(可直接复制运行)
npm install

# 启动开发服务器
npm run dev          # http://localhost:3000

# 端到端验证(每次功能完成后必须运行)
npm run e2e
```

## Testing Requirements
- Run `npm test` before every commit
- NEVER delete or skip tests — treat failures as bugs to fix, not obstacles
- New features MUST include unit + integration tests
- E2E tests use Playwright; browser must be running during test

## Architecture Boundaries
Dependency rule (ENFORCE via linter, never bypass):
  Types → Config → Repo → Service → Runtime → UI
  ↑ lower layers CANNOT import from higher layers

Cross-cutting concerns (auth, telemetry, feature flags):
  Enter ONLY through the explicit `Providers` interface in src/providers/

## Coding Conventions
- TypeScript strict mode — no `any`, no `@ts-ignore`
- File paths: ALWAYS use absolute paths (avoids relative path errors)
- Commits: conventional commits format (feat/fix/refactor/chore)
- PR size: single logical change per PR; split if touching >3 unrelated areas

## What's Off-Limits
- Do NOT modify files in src/legacy/ — frozen, pending migration
- Do NOT change the database schema directly — use migrations in db/migrations/
- Do NOT push to main — open a PR and wait for CI to pass

## CI Failure Protocol
- First failure: diagnose root cause, attempt one targeted fix
- Second failure: STOP and escalate to human — do not loop indefinitely
Anthropic 六大生产工作流模式
来源:Anthropic "Building Effective AI Agents" 研究报告
这六种模式覆盖了 AI 应用中绝大多数场景,可以组合使用。选择原则:任务越复杂、越需要并行、越需要校验,就越应向后面的模式移动。
01
Prompt Chaining
提示词链
顺序任务分解,每次 LLM 调用处理上次输出。适合:固定子任务、准确性 > 速度。
例:生成文案 → 翻译 → 排版
02
Routing
路由分发
输入分类后导向专业处理器。适合:明确分类场景。
例:客服问题 → 退款/技术/账单
03
Parallelization
并行化
分区并行 or 投票共识。适合:独立子任务 or 高风险决策。
例:多角度代码安全审查
04
Orchestrator-Workers
主从编排
中央 LLM 动态分配任务给 Worker Agent。适合:子任务不可预定。
例:跨多文件复杂代码修改
05
Evaluator-Optimizer
生成-评估循环
一个 LLM 生成,另一个评估,循环迭代至满意。
例:文学翻译细节校验
06
Autonomous Agents
自主智能体
完整 Agent 循环 + 环境反馈 + 高风险处的人工检查点。
例:SWE-bench GitHub issue 修复
Anthropic 三智能体 GAN 式架构
来源:Anthropic 工程博客 "Harness design for long-running application development" · 2025.11 / 2026.3
对比结果:单 Agent — 20 分钟,$9,核心功能损坏;三 Agent Harness — 6 小时,$200(Opus 4.6 降至 $125),功能完整、设计精良的真实应用(2D 复古游戏制作器 + 浏览器 DAW)。 核心洞察:随着模型能力增强,Harness 组件可以简化——但"有趣的 Harness 组合空间不会缩小,只会移动"。
📐
Planner
规划器
⚙️
Generator
生成器
🔬
Evaluator
评估器
# 三智能体 Harness 角色定义

── PLANNER AGENT ──────────────────────────────────────────
Role: Product specification expander
Input: One-line product prompt
Output: Structured spec with 16 features organized into 10 sprints
Rule:  Focus ONLY on deliverables, NOT implementation details
       Each sprint must be independently shippable

── GENERATOR AGENT ────────────────────────────────────────
Role: Implementation executor (React/Vite + FastAPI + PostgreSQL)
Input: Current sprint spec + previous sprint state
Output: Working code committed to git
Rule:  Implement ONE sprint at a time; hand off to Evaluator after each sprint
       Never mark complete without running e2e tests

── EVALUATOR AGENT ────────────────────────────────────────
Role: Adversarial quality assessor using Playwright MCP
Input: Live running application + pre-negotiated scoring rubric
Scoring criteria:
  - Design Quality:  0-25  # Heavily penalize generic AI aesthetics
  - Originality:     0-25  # Novel interactions, unexpected details
  - Craft:           0-25  # Polish, edge cases, error states
  - Functionality:   0-25  # All specified features actually work
Output: Score + structured feedback → back to Generator if score < 80
Stripe Minions 蓝图架构
来源:Stripe Engineering · InfoQ 2026.3 · ByteByteGo 深度分析
Stripe 每周合并 1,300+ 个零手写代码的 PR,代码库数亿行(Ruby + Sorbet),每年处理超 1 万亿美元资金。 关键创新:确定性节点与智能体节点交替编排——前者节省 token、减少错误、保证关键步骤必然执行;后者在固定框架内享有完整自主权。
📦
Checkout
确定性
Implement
智能体
🔍
Lint+Test
确定性
🔧
Fix CI
智能体
🚀
Push PR
确定性
# Stripe Blueprint Pattern — 关键规则

DETERMINISTIC_NODES = [
  "checkout_repo",      # 始终以相同方式执行
  "run_linters",         # 节省 token,确保发生
  "run_tests",
  "push_branch_open_pr"
]

AGENTIC_NODES = [
  "implement_feature",   # Agent 完整自主权
  "fix_ci_failures"      # 在固定框架内自由发挥
]

# ═══ TWO-STRIKE RULE(防无限循环)═══
def handle_ci_failure(attempt_count):
    if attempt_count == 1:
        return "diagnose_and_fix"   # 第一次:诊断根因,尝试修复
    elif attempt_count == 2:
        return "escalate_to_human"  # 第二次:立即升级人工

# ═══ TOOLSHED MCP(500+ 工具通过 MCP 暴露)═══
# Universal tool access pattern:
# Agent → MCP Client → Toolshed MCP Server → [git, CI, deploy, db, docs...]
# 实现一次,解锁整个生态——N×M 集成问题变 N+M
Chapter 04

未来展望

竞争优势不再来自模型智能,而来自 Harness 基础设施。模型越来越是商品,Harness 才是护城河。

🔗
近期 · 2026
MCP 标准统一生态
Anthropic 2024 年 11 月发布的 Model Context Protocol(MCP)已获 OpenAI、Google DeepMind、Microsoft 全面跟进,2025 年 12 月捐赠 Linux 基金会,成为 Agentic AI Foundation(AAIF)核心标准。 每月 9700 万 SDK 下载、10,000+ 活跃服务器、主流 IDE 全原生支持。 N×M 集成问题变为 N+M——工具只需实现一次,即可接入整个 Agent 生态系统。
🕸️
近期 · 2026
多智能体微服务革命
类比软件工程从单体应用到微服务的演变:单一全能 Agent → 编排型专业化 Agent 团队。 Gartner 报告:2024 Q1 到 2025 Q2,多智能体系统咨询量激增 1,445%。 标准角色定义逐渐浮现:初始化 Agent、规划 Agent、实施 Agent、评估/QA Agent、熵管理 Agent。 预测:2026 年底 40% 企业应用包含 AI Agent(2025 初约 <5%)。
🧪
中期 · 2027
自优化 Meta-Harness
Harness 本身由 Agent 优化——外层控制循环根据先前结果改进任务级 Harness 代码。 TerminalBench-2 实验证明:Meta-Harness 发现在 Agent 启动时注入环境快照(工作目录、可用语言、已安装包管理器、/app 中的文件),单一调整即带来大幅性能提升。 这不是科幻式自我改进——而是通过 Agent 反馈进行的系统性 Harness 优化。
🏢
中期 · 2027-2028
企业语义知识图谱 Harness
Epsilla 等企业 AI 基础设施公司提出:持久化语义图谱作为企业级 Harness——动态知识库编码组织约束、合规规则、品牌指南和业务逻辑,为 Evaluator Agent 提供语义基准。 超越文档文件,进入组织知识的动态结构化表示,Harness 变成活的企业智慧载体。
⚖️
远期 · 2028+
Harness 安全工程学
2025 年 4 月研究已识别 MCP 生态的新型攻击面:通过 MCP 的提示注入、工具权限组合引发的数据外泄、伪装成可信工具的恶意工具替换。 Harness 安全将成为独立工程学科:工具访问控制、跨 Agent 信任边界、注入防御、会话完整性验证。 类比 Web 安全的崛起——随着 Agent 系统承载更多关键业务,Harness 安全将是护航基础。
🎭
远期 · 2029+
工程师角色的根本转变
工程师价值从"代码写多快"转向"设计 Agent 可靠产出的环境有多好"。 人类指定意图与边界;Agent 在其中执行。代码审查从写代码转向审阅 Agent 产出的代码。 OpenAI 实验已证明:7 名 Harness 工程师 + AI = 传统 70 人团队的产出。 市场规模:$78 亿(2025)→ $520 亿(2030),CAGR 46%。
AI AGENT 市场规模预测(十亿美元)
2024
$3.7B
2025
$7.8B
2027
$20B
2030
$52B
"The model is increasingly a commodity.
The harness is the moat."
— OpenAI Codex 实验总结 · 2026