Hermes Agent 与 OpenClaw 全景调研(2/3):场景搭配与 Harness 视角
排骨非人 发布于 阅读:3
4. 使用场景全景图
4.1 优先选 OpenClaw 的场景
- 个人 IM 多平台触达:希望在 WhatsApp / Telegram / iMessage / 微信中直接呼叫 AI
- 小团队 ChatOps:Slack / Teams / Feishu 上跑值班机器人、提醒、轻量自动化
- 非技术用户:需要 Onboarding 向导、移动端 App、可视化 Live Canvas
- 现成技能调用:希望直接消费 ClawHub 上 5700+ 现成技能
- 语音/视频/音乐生成:依赖 OpenClaw 独有的语音唤醒、push-to-talk、内容创作能力
- iMessage / LINE / Nostr 等 Hermes 不支持的平台
4.2 优先选 Hermes 的场景
- MLOps / AI 研究:批量生成轨迹、对接 Atropos RL 训练、ShareGPT 导出做 SFT
- 长期自动化工作流:每日报告、夜间备份、每周审计、晨间简报
- 重度个性化助手:希望 Agent 越用越懂自己,自动积累项目知识与技能
- HPC / Serverless 后端:需要在 Singularity / Modal / Daytona 上运行
- Computer Use(GUI 级自动化):屏幕级浏览器与桌面控制
- 隐私/合规高要求:零遥测承诺 + 七层安全模型
5. 搭配使用:双引擎并行的最佳实践
5.1 分工原则
OpenClaw 当"皮"(多渠道入口、即时触达、轻量任务),Hermes 当"芯"(长期记忆、复杂任务、训练闭环)。
用户 / 客户端
↓ WhatsApp · Telegram · Slack · Discord · iMessage · 微信
OpenClaw Gateway(皮)
↓ 多渠道接入与会话路由 · 即时响应 · 现成技能调用
Hermes Agent Runtime(芯)
· 长期记忆、技能蒸馏
· Cron / 子代理 / 并行委派
· MLOps 训练数据生成
· 多执行后端(Docker/SSH/Modal/HPC)
5.2 推荐协作模式
- 日常 IM 应答:OpenClaw 主接入、立即响应;Hermes 待命,按需被调用
- 周报/日报推送:OpenClaw 推送渠道;Hermes 任务执行(Cron + 数据汇聚 + 写报告)
- 项目代码审查:OpenClaw 接收 PR 通知;Hermes 子代理跑代码分析、生成评论
- 训练数据准备:仅 Hermes 参与(批量轨迹生成 + ShareGPT 导出)
- 长期偏好沉淀:OpenClaw 转发对话;Hermes MEMORY.md / USER.md 积累用户画像
5.3 技能互通
两者都遵循 agentskills.io 开放标准,SKILL.md 格式互通。Hermes 提供一键迁移工具,可将 OpenClaw 的 SKILL 文件夹直接导入 ~/.hermes/skills/,反向迁移需要手动复制并调整工具引用。
6. Harness Engineering 视角
6.1 什么是 Harness Engineering
coding agent = AI model(s) + harness
Harness 不是"提示词工程"的延伸,而是围绕 Agent 构建的完整运行系统:Context Engineering(分层 AGENTS.md / SKILL.md,按需披露)、Architectural Constraints(用 Linter / CI / Hooks 而非 Code Review 守住边界)、Feedback Loops(测试、Lint、人工审批构成多层反馈)、熵管理(自动记录历史,避免重复犯错)、生命周期管理。
Mitchell Hashimoto:"任何时候你发现 Agent 犯了一个错误,你都应该花时间设计一个解决方案,使 Agent 不会再犯同样的错误。"
6.2 工程团队的关键判断
判断一:Hermes 自带 Harness,但不能完全替代你的工程实践
Hermes 的可写运行时和技能蒸馏看起来很美,但它的 Harness 是为通用 Agent 设计的。在企业级编码 / 业务场景中,你仍然需要:自己的 AGENTS.md / CLAUDE.md(项目结构、命名规范、模块边界)、自己的 Linter + CI(确定性约束,比 Prompt 指令可靠得多)、自己的 Spec Repository、自己的 ORR(Operational Readiness Review)。
判断二:OpenClaw 的 Harness 是外置的,工程团队"自己造缰绳"
OpenClaw 不给你 Harness,它只给你 Gateway。优势是你的 Harness 实践可以完全为自己量身定制;劣势是从 0 搭起来需要 4-6 周。
判断三:两者都没解决的"硬骨头"
- Prompt Injection:行业未解,必须用强模型 + Skills 白名单 + 工具调用沙箱组合防御
- Agent 自演化型恶意行为:Hermes 特有的风险——攻击者可以在 Agent 能接触到的数据中"投毒",让它自己学坏
- 多 Agent 协作的非确定性:Harness 工程的官方建议是 "do one thing exceptionally well, avoid deep sub-agent meshes"
6.3 Harness 效能评估指标
- 任务解决率(自动化测试验证的首次正确解决比例)
- 代码 churn 率(两周内被重写或丢弃的代码比例)
- 验证税(人工审核 AI 生成代码所花费的时间)
- 缺陷逃逸率(到达生产环境的 AI 代码缺陷率)
- Pass@1(Agent 首次尝试正确解决的概率)
参考:SWE-bench-verified 上最佳 Agent 达到 65-76.8%;METR 研究发现许多通过基准测试的 PR 实际上不会被维护者接受;DORA 报告发现 30% 的开发者对 AI 生成代码几乎不信任。
本系列共 3 篇,本文为第 2 篇,聚焦使用场景与双引擎搭配的最佳实践,并从 Harness Engineering 视角拆解了工程团队的关键判断;下一篇将讨论安全风险、产品对位与行动建议。
📚 本文整理自:Hermes_vs_OpenClaw_调研与最佳实践报告.md(作者:沈亚 · 2026-05-20)