Harness Engineering — AI 驾驭工程全景

Chapter 01

历史演变：四个时代

从 GPT-3 的基础调用，到如今能在真实生产系统中自主运行的 AI 工程师——这条路经历了四次质变。

2020 — 2021

Era 0

基础 API 调用时代

GPT-3 于 2020 年 5 月问世，开发者通过 API 发送指令获取回复，上下文窗口仅 4K tokens，交互单轮无状态。论文《Language Models are Few-Shot Learners》首次展示 few-shot 学习：在 prompt 中放入少量示例，模型无需微调即可完成新任务。这是工程认知的起点——大家意识到措辞本身就是变量。

API 调用即全部工程

2022 — 2024

Era 1

提示词工程时代（Prompt Engineering）

ChatGPT 于 2022 年 11 月病毒式爆发，"提示词工程师"成为最热门职业之一。三篇奠基论文确立了时代方法论：
· Chain-of-Thought（Wei et al. 2022）—— 引入中间推理步骤，模型推理能力飞跃
· ReAct（Yao et al. 2022）—— Thought→Action→Observation 循环，工具调用基础
· RAG（Lewis et al. 2020）—— 检索增强生成，外部知识注入主流化
Anthropic 将 XML 标签（<example>、<thinking>）规范化为结构原语。瓶颈：优化单次指令，无法解决多步骤、跨会话、工具可靠性问题。

Prompt = 全部杠杆

2024 — 2025

Era 2

上下文工程时代（Context Engineering）

Andrej Karpathy（OpenAI 联合创始人）提出："The art of carefully designing and managing the entire context window for LLMs."
上下文窗口从 4K 扩展至 128K → 百万 tokens。工程重心从"如何措辞"转向"模型需要什么信息"。
核心技术：上下文压缩（在 token 上限前摘要历史）、即时加载（维护轻量标识符，运行时按需拉取数据）、结构化记忆（NOTES.md / memory tools）。 Anthropic 正式定义："Curating and maintaining the optimal set of tokens during LLM inference." 瓶颈：仍将 Agent 视为基本无状态——无法解决多会话连贯性、自我评估失效、生产级可靠性。

Context = 工程核心

2025 — 至今

Era 3 ✦

驾驭工程时代（Harness Engineering）

催化剂：Claude Code、Cursor、Devin 等 AI 编码 Agent 开始在真实生产代码库中执行真实且重大的操作——错误成本从"AI 说废话"升级为"AI 删了生产数据库"。
OpenAI 验证（2025.8—2026.2）：3 名工程师（最终 7 人）用 5 个月、~1500 个 PR、零手写源代码，构建一个拥有百万行代码、日活数百人的内部产品，预计是传统开发效率的 10 倍。
LangChain 验证：仅改变 Harness、不换模型，TerminalBench 得分从 52.8% 升至 66.5%，排名从 Top 30 跃至 Top 5。
Harness Engineering 在 2026 年 GDPS（全球开发者先锋峰会）获得正式命名，Martin Fowler 发布权威综合定义。

Harness = 模型之外的一切

Chapter 02

核心原理

Harness 源自马具——驾驭强大但不可预测的动物所需的全套装备。马是 AI 模型，Harness 是其他一切。

Agent = Model + Harness

模型是算力核心，Harness 是让算力可用的全部工程基础设施

🏗️

架构即护栏

刚性的结构约束反而提升 Agent 性能，因为它缩小了解决方案空间。 OpenAI 的依赖层：Types → Config → Repo → Service → Runtime → UI，通过结构测试机械化强制合规。Stripe 采用"确定性节点 + 智能体节点"交替蓝图架构，前者保存 token、减少错误并确保关键步骤必然发生。

📋

文档即基础设施

Agent 的唯一现实是它上下文中能访问到的内容——任何在此之外的知识对它而言等同于不存在。 AGENTS.md（OpenAI 发起，2025 年 8 月开源，2025 年 12 月捐赠 Linux 基金会）和 CLAUDE.md（Anthropic）是 Agent 可读的项目说明书，已被 60,000+ 开源项目采用。

🔄

反馈回路

闭环系统将 Agent 输出进行验证，并将修正系统性地反馈回去。 OpenAI 将 Chrome DevTools 接入 Agent 运行时，让 Codex 能截图并验证自己的 UI 修复。 Stripe 的"两次 CI 失败即升级人工"规则，防止无限重试循环。

🧬

熵管理（防漂移）

Agent 生成的代码会复制现有模式，包括不良模式，随时间积累漂移。 OpenAI 的解法：将"黄金原则"直接编码进仓库 + 定期调度后台任务扫描偏差、更新质量等级、开启针对性重构 PR——大多数 PR 在一分钟内被审查并自动合并，替代了每周五 20% 时间的人工清理。

🧠

上下文焦虑防治

Anthropic 发现 Agent 在上下文窗口接近上限时会过早结束任务（"上下文焦虑"）。解决方案：结构化交接的上下文重置——Agent 开始新会话时执行标准化启动序列： 检查工作目录 → 读取进度文件 → 读取 git 历史 → 选定下一功能 → 运行基础测试 → 实施

⚖️

生成器-评估器分离

Anthropic 指出："当被要求评估自己的工作时，AI 模型是一个病态乐观主义者。" 灵感来自 GAN 架构：让独立的 Evaluator Agent 使用 Playwright 与真实运行的应用交互，对照预协商的合同标准打分，而非由生成它的 Agent 自评。

Guides · 前馈机制

引导（Feedforward）

行动前的预期性控制——提升初次结果质量

系统提示词（System Prompt）
AGENTS.md / CLAUDE.md 文件
架构约束文档
工具与函数定义
上下文窗口精心编排的信息

Sensors · 反馈机制

传感器（Feedback）

行动后的观测控制——实现自我纠错

计算传感器：测试套件、Linter、类型检查器（确定性、毫秒级）
推理传感器：LLM 代码审查、语义验证（更慢但语义丰富）
浏览器自动化截图验证
全栈可观测性（日志/指标/追踪）

Chapter 03

实操框架 · 可直接使用的模板

从 ReAct 循环到 Anthropic 三智能体架构，这些经过生产验证的框架可以直接应用到你的项目中。

ReAct 基础循环

来源：Yao et al. 2022 · arXiv:2210.03629 · ICLR 2023

将推理轨迹（Reasoning）与行动调用（Acting）交织，防止幻觉（推理锚定模型）、支持动态计划调整（新观测改变计划）并提供可审计的决策轨迹。纯 CoT 缺乏外部锚定会幻觉，纯 Action 缺乏推理无法规划；ReAct+CoT 在 HotPotQA 和 Fever 上均优于两者单独使用。

# ReAct 提示词框架（在 System Prompt 中声明）

You are an AI assistant that reasons step-by-step before acting.
Always follow this loop:

Thought: [Reason about the current state. What do you know? What's missing?
         What's the best next step?]

Action: [Choose ONE tool: Search[query] | Read[file_path] |
         Execute[command] | Write[file_path, content] | Finish[answer]]

Observation: [The result returned from the tool — do not fabricate this]

... repeat Thought → Action → Observation until confident ...

Final Answer: [Concise conclusion grounded in actual observations]

Rules:
- Never skip the Thought step — reasoning before acting prevents mistakes
- If an Observation surprises you, update your plan in the next Thought
- Only use Finish[] when you have directly verified the answer via tools

Harness 系统提示词结构模板

来源：Anthropic Prompt Engineering 文档 · 生产最佳实践

Anthropic 推荐的组件顺序：角色设定 → 语调 → 背景数据 → 任务规则。系统消息最适合高层场景设定和工具定义；详细指令放在 human turn（Claude 对人类轮次的遵循优于系统轮次）。 XML 标签提供可靠的结构分隔，因为 Claude 在含 XML 结构的数据上训练。

# ═══ SYSTEM PROMPT TEMPLATE FOR HARNESS AGENTS ═══

# 1. ROLE & MISSION
You are [专业角色，如 "a senior software engineer specializing in Python backends"].
Your mission: [一句话核心任务]

# 2. BEHAVIORAL REGISTER
Tone: Professional but concise. No filler. Respond in the same language as the user.

# 3. BACKGROUND DATA
<project_context>
  Tech stack: [语言/框架/数据库]
  Repository structure: [关键目录说明]
  Key constraints: [架构边界、禁止操作]
</project_context>

# 4. TASK RULES
<rules>
  - NEVER remove or modify tests — treat test failures as information, not obstacles
  - ALWAYS verify work end-to-end before marking complete
  - Do not stop due to token budget concerns; save progress to memory and continue
  - After context reset, begin: pwd → read progress file → git log → select task
  - When uncertain, prefer asking one targeted question over making assumptions
</rules>

# 5. CONTEXT RESET PROTOCOL (prevents context anxiety)
<startup_sequence>
  1. Run `pwd` — confirm working directory
  2. Read claude-progress.txt — load completed work state
  3. Run `git log --oneline -20` — understand recent changes
  4. Read feature_list.json — identify highest-priority incomplete feature
  5. Run basic smoke tests — confirm current state
  6. Implement ONE feature end-to-end, then commit and update progress
</startup_sequence>

AGENTS.md / CLAUDE.md 模板

来源：OpenAI 开源规范（2025.8 发布，2025.12 捐赠 Linux Foundation）· 被 60,000+ 项目采用

有效文件优先顺序：可粘贴的命令 > 模糊工具名；真实代码片段 > 描述性散文；明确边界 > 隐性假设。警告：自动生成的 AGENTS.md 使任务成功率降低、成本增加 23%；人工编写使成功率提升约 4%。质量 > 完整性。

# AGENTS.md — AI Agent 项目说明书
# 放置于仓库根目录；子目录中的同名文件会覆盖父目录规则

## Build & Run
```bash
# 安装依赖（可直接复制运行）
npm install

# 启动开发服务器
npm run dev          # http://localhost:3000

# 端到端验证（每次功能完成后必须运行）
npm run e2e
```

## Testing Requirements
- Run `npm test` before every commit
- NEVER delete or skip tests — treat failures as bugs to fix, not obstacles
- New features MUST include unit + integration tests
- E2E tests use Playwright; browser must be running during test

## Architecture Boundaries
Dependency rule (ENFORCE via linter, never bypass):
  Types → Config → Repo → Service → Runtime → UI
  ↑ lower layers CANNOT import from higher layers

Cross-cutting concerns (auth, telemetry, feature flags):
  Enter ONLY through the explicit `Providers` interface in src/providers/

## Coding Conventions
- TypeScript strict mode — no `any`, no `@ts-ignore`
- File paths: ALWAYS use absolute paths (avoids relative path errors)
- Commits: conventional commits format (feat/fix/refactor/chore)
- PR size: single logical change per PR; split if touching >3 unrelated areas

## What's Off-Limits
- Do NOT modify files in src/legacy/ — frozen, pending migration
- Do NOT change the database schema directly — use migrations in db/migrations/
- Do NOT push to main — open a PR and wait for CI to pass

## CI Failure Protocol
- First failure: diagnose root cause, attempt one targeted fix
- Second failure: STOP and escalate to human — do not loop indefinitely

Anthropic 六大生产工作流模式

来源：Anthropic "Building Effective AI Agents" 研究报告

这六种模式覆盖了 AI 应用中绝大多数场景，可以组合使用。选择原则：任务越复杂、越需要并行、越需要校验，就越应向后面的模式移动。

Prompt Chaining
提示词链

顺序任务分解，每次 LLM 调用处理上次输出。适合：固定子任务、准确性 > 速度。
例：生成文案 → 翻译 → 排版

Routing
路由分发

输入分类后导向专业处理器。适合：明确分类场景。
例：客服问题 → 退款/技术/账单

Parallelization
并行化

分区并行 or 投票共识。适合：独立子任务 or 高风险决策。
例：多角度代码安全审查

Orchestrator-Workers
主从编排

中央 LLM 动态分配任务给 Worker Agent。适合：子任务不可预定。
例：跨多文件复杂代码修改

Evaluator-Optimizer
生成-评估循环

一个 LLM 生成，另一个评估，循环迭代至满意。
例：文学翻译细节校验

Autonomous Agents
自主智能体

完整 Agent 循环 + 环境反馈 + 高风险处的人工检查点。
例：SWE-bench GitHub issue 修复

Anthropic 三智能体 GAN 式架构

来源：Anthropic 工程博客 "Harness design for long-running application development" · 2025.11 / 2026.3

对比结果：单 Agent — 20 分钟，$9，核心功能损坏；三 Agent Harness — 6 小时，$200（Opus 4.6 降至 $125），功能完整、设计精良的真实应用（2D 复古游戏制作器 + 浏览器 DAW）。 核心洞察：随着模型能力增强，Harness 组件可以简化——但"有趣的 Harness 组合空间不会缩小，只会移动"。

📐

Planner

规划器

→

⚙️

Generator

生成器

⇄

🔬

Evaluator

评估器

# 三智能体 Harness 角色定义

── PLANNER AGENT ──────────────────────────────────────────
Role: Product specification expander
Input: One-line product prompt
Output: Structured spec with 16 features organized into 10 sprints
Rule:  Focus ONLY on deliverables, NOT implementation details
       Each sprint must be independently shippable

── GENERATOR AGENT ────────────────────────────────────────
Role: Implementation executor (React/Vite + FastAPI + PostgreSQL)
Input: Current sprint spec + previous sprint state
Output: Working code committed to git
Rule:  Implement ONE sprint at a time; hand off to Evaluator after each sprint
       Never mark complete without running e2e tests

── EVALUATOR AGENT ────────────────────────────────────────
Role: Adversarial quality assessor using Playwright MCP
Input: Live running application + pre-negotiated scoring rubric
Scoring criteria:
  - Design Quality:  0-25  # Heavily penalize generic AI aesthetics
  - Originality:     0-25  # Novel interactions, unexpected details
  - Craft:           0-25  # Polish, edge cases, error states
  - Functionality:   0-25  # All specified features actually work
Output: Score + structured feedback → back to Generator if score < 80

Stripe Minions 蓝图架构

来源：Stripe Engineering · InfoQ 2026.3 · ByteByteGo 深度分析

Stripe 每周合并 1,300+ 个零手写代码的 PR，代码库数亿行（Ruby + Sorbet），每年处理超 1 万亿美元资金。关键创新：确定性节点与智能体节点交替编排——前者节省 token、减少错误、保证关键步骤必然执行；后者在固定框架内享有完整自主权。

📦

Checkout

确定性

→

⚡

Implement

智能体

→

🔍

Lint+Test

确定性

→

🔧

Fix CI

智能体

→

🚀

Push PR

确定性

# Stripe Blueprint Pattern — 关键规则

DETERMINISTIC_NODES = [
  "checkout_repo",      # 始终以相同方式执行
  "run_linters",         # 节省 token，确保发生
  "run_tests",
  "push_branch_open_pr"
]

AGENTIC_NODES = [
  "implement_feature",   # Agent 完整自主权
  "fix_ci_failures"      # 在固定框架内自由发挥
]

# ═══ TWO-STRIKE RULE（防无限循环）═══
def handle_ci_failure(attempt_count):
    if attempt_count == 1:
        return "diagnose_and_fix"   # 第一次：诊断根因，尝试修复
    elif attempt_count == 2:
        return "escalate_to_human"  # 第二次：立即升级人工

# ═══ TOOLSHED MCP（500+ 工具通过 MCP 暴露）═══
# Universal tool access pattern:
# Agent → MCP Client → Toolshed MCP Server → [git, CI, deploy, db, docs...]
# 实现一次，解锁整个生态——N×M 集成问题变 N+M

Chapter 04

未来展望

竞争优势不再来自模型智能，而来自 Harness 基础设施。模型越来越是商品，Harness 才是护城河。

🔗

近期 · 2026

MCP 标准统一生态

Anthropic 2024 年 11 月发布的 Model Context Protocol（MCP）已获 OpenAI、Google DeepMind、Microsoft 全面跟进，2025 年 12 月捐赠 Linux 基金会，成为 Agentic AI Foundation（AAIF）核心标准。每月 9700 万 SDK 下载、10,000+ 活跃服务器、主流 IDE 全原生支持。 N×M 集成问题变为 N+M——工具只需实现一次，即可接入整个 Agent 生态系统。

🕸️

近期 · 2026

多智能体微服务革命

类比软件工程从单体应用到微服务的演变：单一全能 Agent → 编排型专业化 Agent 团队。 Gartner 报告：2024 Q1 到 2025 Q2，多智能体系统咨询量激增 1,445%。标准角色定义逐渐浮现：初始化 Agent、规划 Agent、实施 Agent、评估/QA Agent、熵管理 Agent。预测：2026 年底 40% 企业应用包含 AI Agent（2025 初约 <5%）。

🧪

中期 · 2027

自优化 Meta-Harness

Harness 本身由 Agent 优化——外层控制循环根据先前结果改进任务级 Harness 代码。 TerminalBench-2 实验证明：Meta-Harness 发现在 Agent 启动时注入环境快照（工作目录、可用语言、已安装包管理器、/app 中的文件），单一调整即带来大幅性能提升。 这不是科幻式自我改进——而是通过 Agent 反馈进行的系统性 Harness 优化。

🏢

中期 · 2027-2028

企业语义知识图谱 Harness

Epsilla 等企业 AI 基础设施公司提出：持久化语义图谱作为企业级 Harness——动态知识库编码组织约束、合规规则、品牌指南和业务逻辑，为 Evaluator Agent 提供语义基准。超越文档文件，进入组织知识的动态结构化表示，Harness 变成活的企业智慧载体。

⚖️

远期 · 2028+

Harness 安全工程学

2025 年 4 月研究已识别 MCP 生态的新型攻击面：通过 MCP 的提示注入、工具权限组合引发的数据外泄、伪装成可信工具的恶意工具替换。 Harness 安全将成为独立工程学科：工具访问控制、跨 Agent 信任边界、注入防御、会话完整性验证。 类比 Web 安全的崛起——随着 Agent 系统承载更多关键业务，Harness 安全将是护航基础。

🎭

远期 · 2029+

工程师角色的根本转变

工程师价值从"代码写多快"转向"设计 Agent 可靠产出的环境有多好"。人类指定意图与边界；Agent 在其中执行。代码审查从写代码转向审阅 Agent 产出的代码。 OpenAI 实验已证明：7 名 Harness 工程师 + AI = 传统 70 人团队的产出。 市场规模：$78 亿（2025）→ $520 亿（2030），CAGR 46%。

AI AGENT 市场规模预测（十亿美元）

2024

$3.7B

2025

$7.8B

2027

$20B

2030

$52B

"The model is increasingly a commodity.
The harness is the moat."

— OpenAI Codex 实验总结 · 2026

HarnessEngineering

历史演变：四个时代

核心原理

实操框架 · 可直接使用的模板

未来展望

Harness
Engineering