跳转至

架构

组件

  • scripts/contextdb-shell.zsh:接管 codex/claude/gemini
  • scripts/contextdb-shell-bridge.mjs:包裹/透传决策桥
  • scripts/ctx-agent.mjs:统一运行器
  • mcp-server/src/contextdb/*:ContextDB 核心与 CLI

运行链路

用户命令
  -> zsh wrapper
  -> contextdb-shell-bridge.mjs
  -> ctx-agent.mjs
  -> contextdb CLI
  -> 启动原生 CLI(注入 context)

存储模型

每个被包装的工作区有独立的本地存储(git 根目录,如无则为当前目录):

memory/context-db/
  manifest.json
  index/sessions.jsonl
  sessions/<session_id>/
  exports/<session_id>-context.md

作用域控制

  • all:所有工作区启用,包括非 git 目录
  • repo-only:仅 ROOTPATH 工作区启用
  • opt-in:仅含 .contextdb-enable 的工作区启用
  • off:关闭包装

如果需要严格按项目控制,使用 opt-in

Harness 层(AIOS)

AIOS 在 ContextDB 之上提供面向运营的 harness:

  • aios orchestrate 基于蓝图生成本地调度 DAG。
  • dry-run 使用 local-dry-run(免 token,本地模拟)。
  • live 使用 subagent-runtime,通过外部 CLI(codex)执行各阶段任务(当前仅支持 codex-cli)。
  • AIOS_SUBAGENT_CLIENT=codex-cli 时,AIOS 会优先使用 codex exec 的结构化输出(--output-schema--output-last-message、stdin)生成稳定的 JSON handoff(旧版本自动降级)。

live 默认关闭,需要显式打开:

  • AIOS_EXECUTE_LIVE=1
  • AIOS_SUBAGENT_CLIENT=codex-cli

Browser MCP(browser-use CDP)

自 2026-04-10 起,默认浏览器 MCP 运行时为 browser-use MCP over CDP

  • 启动器:scripts/run-browser-use-mcp.sh
  • 迁移命令:aios internal browser mcp-migrate
  • 工具:chrome.launch_cdpbrowser.connect_cdppage.*diagnostics.sannysoft
  • Profile 配置:config/browser-profiles.json
  • 截图超时保护:BROWSER_USE_SCREENSHOT_TIMEOUT_MS(默认:15 秒)

旧版 Playwright MCP(mcp-server/)仍保留用于兼容,但不再是默认。

RL 训练层(AIOS)

AIOS 包含一个多环境强化学习系统,持续在 shell、浏览器和编排器任务中改进共享的学生策略。

共享控制平面(scripts/lib/rl-core/

campaign-controller.mjs   # epoch 编排(采集 + 监控)
checkpoint-registry.mjs  # active / pre_update_ref / last_stable 血统追踪
comparison-engine.mjs     # better / same / worse / comparison_failed
control-state-store.mjs  # 重启安全的控制快照
epoch-ledger.mjs         # epoch 状态 + 降级 streak
replay-pool.mjs          # 四车道路由(positive/neutral/negative/diagnostic)
reward-engine.mjs        # 环境 reward + teacher 塑形融合
teacher-gateway.mjs      # 来自 Codex/Claude/Gemini/opencode 的标准化输出
schema.mjs               # 共享契约验证
trainer.mjs              # PPO 入口(online + offline)

环境适配器

适配器 路径 训练重点
Shell RL scripts/lib/rl-shell-v1/ 合成 bugfix 任务 → 真实仓库
Browser RL scripts/lib/rl-browser-v1/ 受控真实网页流程
Orchestrator RL scripts/lib/rl-orchestrator-v1/ 高价值控制决策
Mixed RL scripts/lib/rl-mixed-v1/ 跨环境联合训练

核心 RL 概念

  • Episode contract:统一结构化输出,跨所有环境(taskId, trajectory, outcome, reward, comparison)
  • 三指针 checkpoint 血统activepre_update_reflast_stable,降级时自动回滚
  • 四车道 replay pool:positive / neutral / negative / diagnostic_only — 按比较结果确定性路由
  • Teacher gateway:来自 Codex CLI、Claude Code、Gemini CLI 和 OpenCode 的标准化信号

运行 RL

# Shell RL 流程
node scripts/rl-shell-v1.mjs benchmark-generate --count 20
node scripts/rl-shell-v1.mjs train --epochs 5
node scripts/rl-shell-v1.mjs eval

# 混合环境 campaign
node scripts/rl-mixed-v1.mjs mixed --mixed
node scripts/rl-mixed-v1.mjs mixed-eval

RL 状态

  • RL Core:稳定(40+ 测试)
  • Shell RL V1:稳定(Phase 1–3)
  • Browser RL V1:beta
  • Orchestrator RL V1:beta
  • Mixed RL:实验性(端到端已验证)