飞驼 Agent 进化机制战略文档¶

定位: 内部战略 + 工程对齐文档, 非对外销售材料. 供 Claude (开发者) 和产品经理按此推进接口讨论和实现.

撰写背景: 2026-04-18 产品经理与 Claude Opus 4.7 战略讨论 (四方反向思考含 Sonnet critic / MiniMax 中国视角 / Agent A 全网学术调研 / Haiku meta-critic). 经 2026-04-19 重大战略校准后重写为整合版, 详细讨论过程归档入附录.

学术背书: 对齐 2025 两篇权威综述 arXiv 2507.21046 和 arXiv 2508.07407.

1. 背景与起点¶

1.1 讨论起因¶

v0.1.0 CHANGELOG 把 evolve 描述为:

"动态工具构建、Skill 学习、自我反思; 接口完备, v1.0 前完善完整能力环路"

产品经理认为这个描述低估了差异化意义, 要求重新讨论定位.

1.2 当前 evolve 包状态 (v0.1.0)¶

core/pkg/evolve/ 四个核心文件共 2050 行:

ToolBuilder: 运行时工具构建 (Agent 自己写 bash 脚本)
SkillLearner: 跨会话技能库 (保存工作流模板)
SelfReflector: 自反思长期记忆 (lessons 累积)
EvolutionStore: 产物持久化 (~/.flyto/evolve/{proposals,tools,skills,reflections})

三层安全: ApprovalFunc 人类审批回调 + SecretGuard 扫 API key + MaxPerSession 限速 + Observer 事件埋点.

1.3 本文档结论 (2026-04-19 战略校准后)¶

evolve = 领域无关引擎 (core) + 行业专属消费层 (platform) + ML 真实数据反射器 的飞轮
"领域无关" = 全领域支持, 不是 "不做任何行业". 消费层必须是行业专属的
反射器 = ML + 真实业务数据 (不是 LLM 文本反思), 评分依据可审计
垂直扩张路径: 飞驼云仓 → 仓储 → 物流 → 供应链, 参照 Salesforce/Palantir/滴滴飞轮
本文档是工程推进基准, 不是对外销售材料; 话术章节仅为内部口径一致

2. 拆解市面 "自进化" 产品本质¶

2.1 共性病根: 单向累积, 无反馈闭环¶

市面 "自进化 Agent" 的共同模式:

做了 → 记录 → 累积 (end)

真进化需要的模式:

做了 → 记录 → 业务评分 → 淘汰/加权 → 下次行为真的变了

选择压力 = "业务成功了没", 不是 "累积够不够".

2.2 三类典型产品定性¶

Hermes 型 (Nous Research, 93k stars): 自己写便利贴. 不检查质量, 只增不减, 下次同问题还是照抄可能已失效的笔记
Evolver 型 (国内开源): 查字典 + 填模板. 基因库 + 预制 prompt 模板, 不根据失败调权重, 本质是 if-else 的 LLM 调度器
Voyager 型 (Minecraft 研究): 真让 LLM 写代码加入 skill library, 学术玩具无生产级安全边界

2.3 大模型厂反射形态: 全局反射¶

OpenAI / Anthropic 有反射机制 (A/B 偏好收集 + 用户评分上传), 但是全局反射, 不是本地反射:

维度	全局反射	本地反射 (Flyto)
目的	训练下一代模型	当前客户当前 Agent 变聪明
粒度	全网亿级用户汇总	本客户本仓 (张三补丁偏好 / 华东仓异常模式)
反馈周期	数月	秒/分 (fast loop) + 日/周 (slow loop)
本地回用	否	是
商业模式	卖 API / 标品	应用层引擎 + 垂直消费

叠加而非替代. Flyto 基于他们的模型运行, 再做本地反射.

2.4 四类竞争位置¶

按位置分类 (不点名具体产品):

位置	特征	Flyto 的差异
大模型厂	全局反射, 数月周期, 不下垂直	我们做本地反射, 秒/天周期
编排框架厂	只到多 Agent 协作层, 无业务反馈闭环	我们有 ML + 真实数据反射器闭环
国内大厂	停在模型层和编排层, 组织固化不下垂直	我们 1-2 年先发窗口
垂直 SaaS 厂	有数据无引擎, 产出专家系统	我们引擎 + 数据结合, 自进化

Flyto 是唯一同时具备引擎能力 + 垂直场景 + 真实数据反射器的位置.

3. evolve 层次框架¶

基于 TMS PDF 30 页 + 45 节深度分析, 把 Agent 参与的场景分成 4 个层次.

3.1 四层拆分¶

Level	场景	有 LLM 吗	反馈信号	evolve 适用
Level 1: LLM 辅助生成	报价配置导入、补丁、解释、SOP 抽取、波次建立	LLM 主力	校验器/仿真/采纳率/ML 预测	最佳
Level 2: LLM 辅助判断	包装解析、不确定性评估、可达性判断	LLM 参与	预测 vs 实际	可用
Level 3: 数值决策引擎	有效边际成本、配额控制、阶梯状态、均重池	纯数学	数据回流	引擎本身不适合, 参数可事后反射
Level 4: 实时链路	毫秒级承运商分配、规则直出	规则	对账	实时链不反射, 事后日志回放可反射

3.2 PDF section 45 的直接验证¶

PDF 原话: "系统确实使用了大模型, 但用在了正确的地方"

用于: 临时策略简化、报价文档解析、策略 DSL 草案、经营先验补丁、决策解释、对账解释 (Level 1-2)
不用于: 高频实时主分配、重量预测、有效边际成本、最终逐单决策优化器 (Level 3-4)

PDF 第十一部分 "策略智能化" 阶段正是 evolve 主战场.

3.3 反射器升级: ML + 真实数据 (2026-04-19 校准)¶

原定义: LLM-based 文本反思 (self-reflection + lessons 累积).

新定义: 反射器 = ML 模型 + 真实业务数据训练 + LLM 自然语言解释层.

评分依据是历史事实, 不是 LLM 文本反思:

Q: 为什么给 Y 承运商打 73 分?
A: 同承运商 + 同路线 + 同季节历史 1247 单准时率 83%
   近 30 天投诉 3 次 (工单 TK-2401-034 / 2401-089 / 2402-012)
   结算纠纷 1 次 (订单 ORD-A1B2C3)
   (数据源: 客户真实结算表 + 投诉工单 + 路由日志)

合规价值: 真实数据评分 > LLM chain-of-thought 文本解释, 更可审计.

3.4 实时链的事后反射¶

实时链当下不反射 (毫秒级要确定性), 但决策快照全留着 (PDF 31-33 节):

dynamic_cost_view_snapshot
carrier_execution_feedback
carrier_settlement_feedback

LogReplayer 组件负责扫这些日志, 把当年决策 (评分 87) 与真实后果 (投诉 + 结算纠纷) 对齐, 反推该评分高了 20 分, 下次同承运商打分自动下调.

实时链与 LogReplayer 的关系:

实时链: 快 (毫秒) 但盲 (KPI 还没发生)
LogReplayer: 慢 (日/月) 但准 (KPI 齐全)
两者互补, 不是替代

4. 超越 LLM prompt 维度的系统级演化¶

4.1 盲区修正¶

讨论初期曾把 "反射" 局限为 "下次 LLM 生成时把历史塞进 prompt". 这太狭窄.

真正可反射的维度远不止 prompt:

反射对象	反射机制	周期	示例
LLM prompt 注入	LLM 上下文拼接	秒/分	"张三对 X 客户偏高 22%" 塞进下次 prompt
ML 模型参数	ML 反射器	日/周	预测偏差累积 → 定时 retrain
规则引擎权重	ML 反射器	日	FinalDecisionScore 的 α/β/γ 自动校准
判断阈值	Bandit / RL policy	日	不确定性触发人工审核的阈值自适应
候选偏好	ML 反射器	周	过去历史 X 表现好 → 初始偏好 +10%
规则库清理	ML + LLM	月	N 条规则从未触发 → 建议删
候选数量	Bandit	周	之前出 5 个 3 个够了 → 下次出 3
评估器本身	MetaEvaluator	月	ML 预测器对冷链不准 → 自动收窄 confidence
缓存策略	规则	日	某类 prompt 结果稳定 → 加 cache
Agent 分工	ML 反射器	周	A 做任务 X 成功率低 → 下次 B 做
prompt 模板本身	LLM + ML	周	完整模板演化, 不只是注入变量

每个维度对应的演化机制不同: LLM 生成候选 / ML 反射器评分 / Bandit 选择 / RL policy 控制 / 规则 if-else.

4.2 时间尺度对应反射对象¶

毫秒/秒 : 不反射 (实时决策需要确定性)
秒/分   : LLM prompt 注入 (快反射)
分/时   : 候选策略/温度/路由调整 (LLM + Bandit)
日       : 参数权重/阈值/偏好校准 (ML 反射器)
周       : ML 模型再训练 / Agent 分工调整
月       : 规则库清理 / Bundle 结构演化
季       : 整个系统架构元反射 (MetaEvaluator)

4.3 黏菌哲学: 利用 LLM, 不对抗¶

不是补齐 LLM 缺点, 也不是对抗 LLM 缺点, 而是利用 LLM 特性.

LLM 特性	对抗派	利用派 (Flyto)
幻觉	更严 prompt 抑制	多样性来源 (采样池)
不确定	升温度=0 让它变死	探索能力来源
慢	硬扛	并行 + 便宜 evaluator
贵	缓存 / 小模型	LLM 生成 + 便宜 ML 评分

LLM 当高维采样器 + ML 做评分器 + evolve 做留存/淘汰 = 黏菌范式.

黏菌类比:

黏菌没有中枢神经, 每个点都在探索 + 收缩
成功路径被强化 (信息素), 失败路径萎缩
没有主控制器但能整体解迷宫

Flyto 对应:

LLM = 大量探索节点 (高温采样)
ML 反射器 = 环境反馈 (成本低但准)
evolve 接口 = 留存/淘汰机制
整体涌现好结果, 不依赖单点最优

4.4 定义升级¶

之前: evolve = "让 LLM 在这次任务里越用越熟"
修正: evolve = "系统里一切可变参数的统一演化框架, 由 LLM/ML/Bandit/RL 协作推进"

5. 落地场景¶

5.1 判断场景是否适合 evolve 的 3 要素¶

同时满足三要素的场景都适合 evolve:

LLM 生成内容 (方案 / 补丁 / 解释 / 抽取结果)
能被评判 (便宜 evaluator: ML / 校验器 / 仿真 / LLM critic / 人类)
业务反馈 (对账 / 采纳率 / 实际 vs 预测)

数值计算、实时关键路径不适合.

5.2 TMS 场景全景 (PDF 映射)¶

场景	PDF section	Level	反射机制
建波次	-	1	LLM 5 方案 → ML 打分 → Top-2 变异 → 审批 → WMS 回流 → 校准
报价合同导入	20	1	LLM 3 YAML → 校验 + 仿真 → 审批 → 长反射对账 → 补缺项
经营先验补丁	27	1	LLM 3 变体 → 历史偏差校准 → 审批 → 实际 vs 预测 → 自动 correction factor
临时干预补丁	10	1	LLM 3 变体 → 校验 + 仿真 → 审批 → 补丁失效后验证异常率
冷启动新仓库	-	1	LLM 3 配置 → 相似仓参考 → 审批 → 累积数据后自动调整
决策解释生成	32	1	LLM 写解释 → 运营采纳率 + 客户反馈
对账异常根因	33	1-2	LLM 3 原因 → 运营定位方向 → 对应方向 LLM 加权
规则库自动清理	-	1	LLM 合并方案 → 历史仿真差异 <2% → 通过

5.3 代表性场景: 建波次¶

操作员说 "明天早班给 WH01 建 3 个波次":

第 1 步 (LLM 多方案):
  5 种角度 (SKU 聚类/目的地/尺寸/客户/混合) → 5 个方案

第 2 步 (ML 反射器评分):
  对 5 个方案给 fitness score (预测时长 + 预测异常率)
  评分依据: 历史同类波次真实完成数据

第 3 步 (进化):
  Top-2 (C 和 E) → LLM 各微调 3 个变体 → 再打分

第 4 步 (审批):
  最优方案交操作员 approve

第 5 步 (长反射, WMS 回流后):
  预测 4.5h vs 实际 4.8h → 系统记下偏差
  下次 LLM 出方案先看历史偏差 → 自动变保守

关键: LLM 不是一次出最优, 是 "多出几个让打分器筛".

5.4 代表性场景: 经营先验补丁¶

运营说 "明天 X 客户 3000 单大促":

第 1 步: LLM 生成 forecast_commitment_patch 草案

第 2 步: LLM 出 3 个变体
  A: confidence 85 (LLM 默认)
  B: confidence 70 (因为张三前 5 次偏高 22%, 系统后台校准)
  C: A + "延期到后天" fallback

第 3 步: 无便宜 evaluator (未来未发生), 操作员直接看
  界面提示: "你最近 5 次类似预测平均偏高 22%"

第 4 步 (次日实际):
  X 实际 2100 单 (不是 3000)
  系统记下 "张三对 X 客户预测偏高约 30%"
  不直接告诉张三, LLM 下次自动加 correction factor

第 5 步 (累积后):
  下次张三说 "2000 单活动" → LLM 自动补 "基于张三过往偏差估计更可能 1400 单"

妙处: LLM 不说教, 自己悄悄校准.

5.5 非 TMS 场景 (跨行业)¶

Bundle 场景 prompt 演化 (跨行业 bundle 内 prompt 根据各行业反馈贴合)
Skill 自动发现 (连续 N 次类似任务主动提议保存)
Agent Teams 分工优化 (A/B 协作谁做什么根据历史)
工具选择偏好 (某场景 Bash 更常成功 → 优先推荐)
异常处理方案推荐
运营 SOP 进化 (反复手工干预同一问题 → 沉淀规则)
补货策略 / 排班 / 客服工单分类
ML 模型监控报警阈值

6. 技术实现¶

6.1 LLM 多方案生成 (6 种做法)¶

做法 A (温度): 同一问题用不同温度 (0-1) 调用多次 → 不同松紧度方案.

做法 B (列举, 最常用): 一次 prompt 要求 "给我 5 种不同思路, 每种角度必须明显不同: 1. 按 X 2. 按 Y 3. 按 Z 4. 按 W 5. 你自己想一个" → 1 次调用拿 5 个. 最便宜.

做法 C (反驳自己): 多轮串行, 轮 2 要求 "前一个有什么问题再给一个不同的" → 多样性最好但慢.

做法 D (角色扮演): "扮演时效专家/成本专家/稳定性专家出方案" → 同一 LLM 戴不同帽子自然不同.

做法 E (不同约束): "必须 3h 完成 / 异常率 <2% / 成本最低 / 保底 >85%" → 4 个侧重 4 个方案. 对应 PDF section 29 线性加权公式.

做法 F (多模型): Claude + GPT + MiniMax + Qwen → 不同厂家偏好不同答案.

Flyto 推荐组合 (以波次为例):

第一轮: 做法 B + D 混合
  "扮演时效/成本/稳定/聚类 4 专家各出 1 个方案 + 加第 5 个自己想的"
  1 次 LLM 调用拿 5 候选

第二轮: 做法 A + C 混合
  Top-2 各用温度 0.7 微调 + "指出前一版问题并改进"
  每个派生 3 变体 → 新 6 候选

总计 11 候选, 4-6 次 LLM 调用.

6.2 评估器类型¶

评估器	适用	成本	质量
ML 预测器	波次效率、承运商结果、包装重量	低 (毫秒推理)	高 (有训练数据)
规则校验器	YAML 语法、schema 完整性	极低	高 (确定性)
仿真器	报价导入、补丁影响	中 (跑历史)	高 (真实数据)
LLM critic	内部一致性、多方案互评	中 (LLM 调用)	中 (self bias)
人类	最终审批	高 (时间)	最高 (但慢)

6.3 两层反射架构¶

                  操作员触发
                      ↓
            ┌─ LLM 生成候选 × 5 ─┐
            │                    │
            ↓                    ↓
         Evaluator          Evaluator ...
            ↓                    ↓
        fitness 5            fitness ...
            └──── 排序 ────┘
                  ↓
            Top-2 变异 × 3 → 再评分 → 最优输出
                  ↓
              操作员审批 → 执行
                  ↓
            业务 KPI 反馈 (日/月级)
                  ↓
     ML 反射器更新评分模型 + LLM 偏好权重

短反射 (fast loop): LLM 生成 → evaluator 评分 → 迭代 (秒/分)
长反射 (slow loop): 执行 → 业务 KPI → 调整 ML 权重和 LLM 偏好 (日/周)

两层结合才是真进化.

6.4 ML 反射器定位 (2026-04-19 核心升级)¶

ML 反射器不是局部工具, 是 evolve 的核心组件:

训练输入: 客户真实业务数据 (订单 / 结算 / 投诉 / 路由日志)
输出: fitness score + 评分依据的具体历史数据引用
合规价值: 评分有事实基础, 客户问 "为什么打 73" 可以直接指出历史数据 (同路线同季节 83% 准时率)
技术路径: 每个行业一个专属反射器 (飞驼云仓反射器 / 仓储反射器 / 物流反射器) + 引擎层统一接口

行业专属 small model (v0.5 引入): 基于 7-13B 开源模型 (Qwen/Llama) LoRA 微调, 注入行业术语和业务规则. 主模型 (Claude/GPT) 仍是主力, small model 处理高频场景降本.

6.5 局部 RL policy (v0.4 引入)¶

policy network 不是替代 LLM, 只学 "选哪个参数":

Contextual bandit 选承运商 / 补丁阈值 / 审批层级
RLAIF (反射器自己打分) 代替人类标注
Shadow → A/B → 生产三步灰度

不做 end-to-end RL. 引擎架构仍是 "LLM 生成候选 + ML 评分 + 规则 gate + 人工审批", RL policy 只在参数选择这一层.

6.6 成本账¶

每候选 ≈ 1 次 LLM 调用
5 候选 ≈ 5 次调用
MiniMax 约 2 元 / 次, Claude Sonnet 约 1 美元 / 次
十几块钱 / 美元得到一次决策演化

对比: TMS 波次规划错误可能导致几万到几十万运输成本偏差. 性价比极高.

6.7 冷启动策略¶

新客户/新仓库累积数据前:

选项 A: 默认参数 (保守但不精准)
选项 B: 相似客户迁移 (meta-learning, 学术 open problem, v3.0+ 研究级)
选项 C: 高频询问操作员偏好 (成本高但最准)

当前方案: A + C 混合, 有足够数据后转本地反射.

7. 引擎层接口设计¶

状态 (2026-04-18): v0.2+ 接口矩阵 9/9 delivered. 权威契约在 core/pkg/evolve/interfaces.go, 交付一览见 §7.4. 本章保留历史 Round 1/2/3 讨论脉络以解释设计演变 (合并 / 吸收), 每节末尾标注"当前状态".

7.1 Round 1: 四个核心接口¶

type Generator interface {
    Generate(ctx context.Context, input any, K int, opts ...GenOpt) ([]Candidate, error)
}

type Evaluator interface {
    Score(ctx context.Context, candidate Candidate) (fitness float64, breakdown map[string]float64, err error)
}

type FitnessSignal interface {
    Report(entityType, entityID string, score float64, context map[string]any) error
}

type SelectionPressure interface {
    AdjustWeights(histories []Record) (newPriors Weights, err error)
}

当前状态 (2026-04-18):

接口	状态	参考实现
`Generator`	delivered	`core/pkg/evolve/generator_llm.go` (LLMGenerator)
`Evaluator`	delivered	`core/pkg/evolve/evaluator_impls.go` (Func/Weighted/Rule)
`FitnessSignal`	merged → `FeedbackChannel`	`core/pkg/evolve/feedback_channel_file.go`
`SelectionPressure`	absorbed → `ParameterEvolver`	`core/pkg/evolve/parameter_evolver_default.go`

FitnessSignal 和 FeedbackSource (§7.3) 在实现时合并为单一双向通道 FeedbackChannel, 同一份数据两种访问模式 (push Report / pull Query) 合并减少概念负担. SelectionPressure 的偏好权重调整和规则系数 / 阈值调整无本质区别, 合并到 ParameterEvolver 统一接口.

7.2 Round 2: 扩展系统级演化接口¶

type ParameterStore interface {
    Get(key string) (value any, version int, err error)
    Set(key string, value any, reason string) (newVersion int, err error)
    History(key string, limit int) ([]Change, error)
    Rollback(key string, toVersion int) error
}

type ParameterEvolver interface {
    Propose(key string, evidence []FeedbackRecord) (proposedValue any, confidence float64, err error)
    Apply(key string, value any, approved bool) error
}

type LogReplayer interface {
    Replay(from, to time.Time, filter FilterFunc) (<-chan Event, error)
    RegisterReflector(r Reflector)
}

type MetaEvaluator interface {
    AuditEvaluator(evaluatorID string, recent []PredictionActualPair) (
        accuracy float64,
        biasReport map[string]float64,
        suggestedAdjustments []Adjustment,
        err error,
    )
}

当前状态 (2026-04-18):

接口	状态	参考实现
`ParameterStore`	delivered	`core/pkg/evolve/parameter_store_file.go`
`ParameterEvolver`	delivered	`core/pkg/evolve/parameter_evolver_default.go`
`LogReplayer`	delivered	`core/pkg/evolve/default_log_replayer.go`
`MetaEvaluator`	planned (v3.0+ 研究级)	—

LogReplayer.Replay 签名从 Round 2 草案的 (<-chan Event, error) 调整为 error — 事件通过 RegisterReflector 注册的 Reflector push 分发, 避免 caller 自己起 goroutine drain channel. 演变理由: Reflector 本就是 push 式 event-driven 设计 (见 interfaces.go Reflector 注释).

7.3 Round 3: 数据源接口 (领域无关)¶

引擎只提供接口, 不假设数据源结构:

type DataSource interface {
    // 业务数据源 (订单 / 结算 / 投诉 / 路由日志)
    // 具体实现由消费层提供, 引擎只操作抽象接口
}

type LogSource interface {
    // 历史决策日志源, 供 LogReplayer 消费
}

type FeedbackSource interface {
    // 业务 KPI 反馈源 (对账结果 / 客户评分)
}

当前状态 (2026-04-18):

接口	状态	参考实现
`DataSource`	planned (platform 层)	—
`LogSource`	delivered	`core/pkg/evolve/log_source_file.go`
`FeedbackSource`	merged → `FeedbackChannel`	`core/pkg/evolve/feedback_channel_file.go`

DataSource (业务数据源, 订单 / 结算 / 投诉) 仍由消费层自行实现, 引擎不内置默认实现, 对齐"数据接入边界" (见 memory project_architecture_decisions.md).

7.4 v0.2+ 接口矩阵交付一览 (2026-04-18)¶

权威契约: core/pkg/evolve/interfaces.go (10 接口 + 1 func type).

#	接口	参考实现	对应 Round
1	`Generator`	`generator_llm.go` (LLMGenerator)	7.1
2	`Evaluator`	`evaluator_impls.go` (Func/Weighted/Rule)	7.1
3	`Reflector`	`reflector_impls.go` + `self_reflector.go`	new
4	`ApprovalFunc` (func type)	`evolve.go` (Config.ApprovalFunc)	new
5	`ParameterStore`	`parameter_store_file.go`	7.2
6	`ParameterEvolver`	`parameter_evolver_default.go`	7.2
7	`LogReplayer`	`default_log_replayer.go`	7.2
8	`LogSource`	`log_source_file.go`	7.3
9	`FeedbackChannel`	`feedback_channel_file.go`	7.1 + 7.3 合并
10	`ShadowRunner`	`shadow_runner_default.go`	new

闭环 example (9 接口串联跑通): core/examples/evolve_closed_loop/main.go (commit 41805b6, baseline 1.0 → version 2 的 1.5, divergence 0.1736, shadow delta +0.105).

现有 ToolBuilder / SkillLearner / SelfReflector 保留为高层组件 (不改造为通用接口), 与新接口矩阵并存. SelfReflector 实现了 Reflector 契约.

8. 竞品情报摘要¶

详细四方调研 (Sonnet critic / MiniMax / Agent A 学术 / Haiku meta-critic) 归附录 13.4.

8.1 核心信号 (三方或四方一致)¶

MLOps 不做系统级演化 — 只做 drift 触发重训, 阈值是人配静态告警线
合规/审计/可解释是硬需求 — B 端必答题
Credit assignment 是学术 open problem — 7 维参数同时动反事实归因极难
国内大厂组织固化给 Flyto 1-2 年先发窗口
学术底座 30-40% 已有 (Maestro/Artemis/Trace), 业务 KPI 闭环 0% 端到端

8.2 Haiku 综合判断¶

护城河 60% 有条件成立:

成立: 相比竞品 Flyto 是业界唯一端到端闭环的产品级实现方向. 学术 0% + 商业 0% + 开源 0%, 从 2025 论文盲区中来, 有先发优势
不成立: v0.1.0 实现深度仅三维 (工具/技能/反思), 规则系数/阈值/权重框架空, 合规工具链未装, credit assignment 无设计方案

9. 护城河分析¶

9.1 学术空白 (最强信号)¶

2025 两篇权威 survey (arXiv 2507.21046 和 arXiv 2508.07407) 明确把 Flyto 定位领域列为未覆盖区域. 不是 "没人想到", 而是 "credit assignment 是 open problem 没人解决了".

Flyto 填的是学术承认的真 gap.

9.2 合规优势: ML + 真实数据反射器 (2026-04-19 升级)¶

这是新战略下我们最硬的武器, 独立成节.

传统 AI 决策合规审计难点: 客户问 "为什么这次打 73 分", LLM chain-of-thought 是文本生成可能幻觉, 不算证据.

Flyto 反射器基于 ML + 真实业务数据训练, 评分依据是历史事实:

Q: 为什么打 73?
A: 同承运商 + 同路线 + 同季节历史 1247 单准时率 83%
   近 30 天投诉 3 次 (工单号 TK-2401-034 / 2401-089 / 2402-012)
   结算纠纷 1 次 (订单号 ORD-A1B2C3)

事实级的评分依据比文字解释可审计性更强. 这是 B 端 (金融/医疗/3PL) 硬需求, 也是 Flyto 相对通用 Agent 的差异化.

9.3 垂直飞轮 (2026-04-19 新增)¶

"引擎 + 垂直行业" 飞轮:

飞驼云仓数据 → 专属反射器 → 引擎能力提升 → 扩仓储行业
    ↑                                              ↓
    ← ← ← ← 仓储数据反哺引擎 ← ← ← ← ← ← ← ← ← ← ←

参照: Salesforce (CRM → Service → Marketing) / Palantir (军工 → 政府 → 企业) / 滴滴 (出租 → 专车 → 顺风 → 货运).

每个垂直行业:

真实业务数据训练专属反射器
LoRA 微调行业 small model (云仓 7B / 仓储 7B / 物流 7B)
数据飞轮启动后竞争壁垒升高

9.4 位置护城河: 四类竞争中唯一的组合¶

位置	引擎	垂直数据	反射器	Flyto
大模型厂	✓	✗	全局	-
编排框架厂	✓	✗	✗	-
国内大厂	✓	部分	✗	-
垂直 SaaS 厂	✗	✓	✗	-
Flyto	✓	✓	✓	唯一组合

9.5 时间窗口¶

数据壁垒生效前的先发优势窗口 1-2 年:

国内大厂组织固化 (MiniMax + Agent A 两方验证)
OpenAI/Anthropic 商业模式冲突 (不下垂直)
垂直 SaaS 厂补引擎能力需要技术积累

这不是工期预测, 是飞轮启动前后来者的追赶成本曲线.

9.6 真正技术挑战 (非护城河, 是未解问题)¶

Credit assignment — 7 维参数同时动反事实归因 (学术 open problem, v3.0+ 研究级)
稳定性悖论 — 演化 vs 可预期冲突 (工程级, shadow mode + 学习率控制)
冷启动 — 新客户累积数据前 meta-learning 无现成方案 (v3.0+)

解决它们 = 在学术领先领域建立第二重护城河.

10. 风险与盲点¶

10.1 Credit assignment¶

问题: 7 种参数同时动, 一个订单出错难归因.

策略: 分层组合.

Shadow mode A/B: 新参数影子运行, 对比老版本
分层归因: 每次只改一个参数
ML 反射器评分: 客观事实依据
一次演化一维 兜底, 不贪心

承认研究级, 归 v3.0+.

10.2 反馈信号质量¶

问题: 云仓 TMS 对账可能来自 ERP 延迟 / 货主失误 / 物流商抖动 / 季节异常, 不是 Agent 决策错.

策略:

信号设计文档 feedback_signal_design.md (领域无关, 通用抽象) 先于代码
信号清洗升级为 ML 反射器训练时自动学季节性, 不手写规则
置信度评估 (低置信度反馈降权)
延迟信号不参与 fast loop, 只参与 slow loop

10.3 稳定性悖论¶

问题: 客户要可预测, 演化天然引入漂移.

策略 (三层):

硬止血: 熔断器 + CAS 乐观锁 + Staging 表 + 影子表
软约束: ConvergenceValidator (参数变化率超阈值拒绝提交)
客户选择: 冻结模式 + 演化透明度面板

稳定性 SLO: 连续 N 次参数更新无显著漂移 = 稳定.

10.4 冷启动¶

问题: 新客户累积数据前参数演化有效性未知.

当前方案:

默认参数 + 相似客户迁移 + 操作员高频询问
跨客户迁移是 platform 层的事, 引擎提供迁移接口
Meta-learning 归 v3.0+

10.5 客户 "可预期" 需求¶

问题: "自动演化参数" 对传统制造业 3PL 听起来是噩梦.

策略:

叙事不讲 "自进化", 讲 "越用越懂你的仓库" (详见 11.3)
演化默认保守 (低学习率), 激进客户可调
冻结模式 + 透明度面板兜底

10.6 工程复杂度¶

问题: 多维度参数空间同时演化复杂度爆炸.

策略:

一次一维, 依赖前一维度稳定后再加下一维
v0.3 先做 "承运商评分" 一维
v0.4 加 "补丁阈值" 维度
按 commit 数推进, 不按工期

10.7 数据不足 + 多租户隔离 (RL 路线新风险)¶

问题: 飞驼云仓初期数据量少, 反射器评分方差大; LoRA 微调不能混客户数据.

策略:

初期用模拟数据 + 相似客户数据启动, 真实数据到位后切换
多租户数据隔离由 platform 层保证, 引擎不做跨租户数据聚合
数据量达到阈值前反射器输出标注低置信度, 给人工兜底空间

10.8 模型漂移 + continual learning¶

问题: 业务规则/承运商/政策变化时模型失效, 重训频率是开放问题.

策略:

漂移检测: 预测 vs 实际偏差监控
定期增量 retrain (频率按行业节律, 由 platform 层决定)
重大业务变化事件触发强制 retrain

10.9 基座模型依赖¶

问题: LoRA 基于 Qwen/Llama 开源模型, 基座模型质量决定上限, 开源生态变化有风险.

策略:

基座模型解耦: 引擎层不锁定特定开源模型, provider 接口抽象
主模型 (Claude/GPT) 兜底: small model 不可用时 fallback
跟进开源生态 (Qwen/Llama/Mistral 等新版本)

10.10 RLAIF 评估器自指涉陷阱¶

问题: 反射器自己打分, 若反射器有系统偏差, 会被自己放大 (Constitutional AI 论文警告过).

策略 (实践中解决, 非研究级):

多反射器投票 / 周期性人工抽检 / 真实业务 KPI 兜底校验
MetaEvaluator 定期评估 "评估器本身好不好"
关键决策保留人工审批 gate

11. 产品叙事修正¶

11.1 之前错在哪里¶

v0.1.0 CHANGELOG 过于技术化, 埋没差异化; 中间讨论也出现过度乐观叙事 ("OpenAI 做不了" / "护城河已完成"). 经 2026-04-19 战略校准后重写.

11.2 准确说法 (最终版)¶

Flyto evolve = 领域无关引擎 + 行业专属消费层 + ML 真实数据反射器 的飞轮. 垂直扩张路径: 飞驼云仓 → 仓储 → 物流 → 供应链, 参照 Salesforce/Palantir 玩法.

2025 两篇权威 survey 明确把我们的定位领域标注为未覆盖, 全球端到端产品化 0 家. 核心技术挑战 (credit assignment / 稳定性 / 冷启动) 是研究路线.

我们和大模型厂 (OpenAI/Anthropic) 叠加而非替代: 他们做全局反射 (全网 → 下一代模型 → 数月), 我们做本地反射 (本客户本仓 → 当前 Agent → 秒/天). 数据壁垒生效前 1-2 年先发优势窗口.

11.3 对客户话术 (TMS 场景)¶

云仓运营每天做的事 — 选承运商、设阈值、写补丁、跟异常 — 靠的是经验. 经验值钱, 但带不走、传不下去、新人要重学.

Flyto 云仓 Agent 是用你自己的真实业务数据训练的反射器. 它给你的建议不是 AI 凭感觉生成, 是从你过去几万单的真实结算结果里学出来的 — "Y 承运商在苏州线路旺季准时率 83%, 你上月已经被投诉过 3 次" 这种事实级反馈.

市面上的 AI Agent 大致三种: 一种只会写笔记帮你记录; 一种填模板给你三个 "可能的原因" 让你自己判断; 一种帮你执行但不学习, 下次同样问题还是得重新教. 它们都停在 "帮你省敲键盘的时间", 不触及 "让每次决策更准".

我们的 Agent 真的会变聪明, 因为它看过你所有历史数据的真实业务结果. 这不替代运营做决策, 是让运营的每个动作都基于事实而不是感觉.

11.4 对主管/销售话术¶

Flyto 走的是 "引擎 + 垂直行业" 飞轮路线. 引擎层做全领域通用能力, 上面叠云仓专属的 ML 反射器. 第一战飞驼云仓, 拿下后扩仓储 → 物流 → 供应链, 每个行业真实数据反哺引擎.

学术背书: 2025 两篇权威 survey (arXiv 2507.21046, arXiv 2508.07407) 把 "业务 KPI 闭环的系统级演化" 标注为未覆盖领域. 全球产品化 0 家.

竞争格局 (不点名, 按位置分类):

大模型厂: 做全局反射, 叠加不冲突, 商业模式决定不下垂直

编排框架厂: 只到多 Agent 协作层, 无业务反馈闭环, 无行业真实数据

国内大厂: 停在模型层和编排层, 组织固化不弯腰做垂直

垂直 SaaS 厂: 有数据无引擎, 产出专家系统不是自进化

我们的位置: 唯一同时具备引擎能力 + 垂直场景 + 真实数据反射器的组合.

时间窗口 1-2 年: 云仓第一战拿下后数据飞轮启动, 后来者补课成本快速升高. 这不是工期预测, 是数据壁垒生效前的先发优势窗口.

12. 实施路线图¶

12.1 原则¶

不按工期, 按 commit 数 / 代码面积 / 能力依赖链
引擎层不做数据接入 (见 project_architecture_decisions.md 数据接入边界), 只提供接口 + fixture 验证
行业专属 small model / 反射器训练由 platform 层或客户 负责
一次演化一维, 依赖前一维稳定

12.2 v0.1.x: 叙事修正 (不动代码)¶

[ ] CHANGELOG v0.1.0 evolve 条目按 11.2 重写
[ ] README 新增 "Evolve - 本地反射进化" 节, 引 arXiv 2507.21046 / 2508.07407
[ ] core/pkg/evolve/doc.go 挂学术背书 + 承认 credit assignment 未解
[x] memory project_evolve_rl_stance.md 已建 (2026-04-18)
[x] project_strategy.md "领域无关 = 全领域" 校准已写入 (2026-04-18)
[x] project_architecture_decisions.md 数据接入边界已写入 (2026-04-18)

12.3 v0.2: 引擎基建¶

[ ] 反馈信号设计文档 feedback_signal_design.md (领域无关通用抽象)
[ ] ParameterStore / ParameterEvolver 接口 + 文件系统实现
[ ] 合规工具链 P1×7 (销售必答): SQL 只读校验 / Dry-run / 影子表 / 熔断器 / CAS / AuditSink DB / Staging 表
[ ] Fixture 数据验证 pipeline (不接真实数据源)

12.4 v0.3: 反射器 MVP¶

[ ] ML 反射器 training pipeline (接口 + fixture 验证)
[ ] 第一维度: 承运商评分 (同路线 + 同季节 + 同承运商历史准时率)
[ ] Shadow mode 灰度 (和规则并行)
[ ] 合规审计接口 (评分依据的历史数据引用)
[ ] 与 SkillLearner.RecordUsage 集成

12.5 v0.4: 局部 RL policy¶

[ ] Policy network (选参数: 补丁阈值 / 异常触发阈值 / 审批层级)
[ ] Contextual bandit 实现
[ ] RLAIF/Constitutional 评分机制 (反射器自打分代替人类标注)
[ ] Shadow → A/B → 生产三步灰度上线

12.6 v0.5: LogReplayer + LoRA 框架¶

[x] LogReplayer 接口 + fixture (LogSource 接口, 不假设具体表) -- delivered 2026-04-18 (v0.2-dev, 提前于 v0.5)
[ ] 离线扫描任务骨架
[ ] LoRA 微调框架 (7-13B 开源模型, 引擎提供能力, 具体行业模型由 platform 套)
[ ] M5 Max 128GB 本地调试 pipeline

12.7 v1.0: 引擎独立发布门槛¶

[ ] Production stability: 稳定性 SLO 监控
[ ] 演化透明度面板 (引擎侧 API, UI 由 platform 实现)
[ ] 冻结模式 (客户可选关闭自动演化)
[ ] 连续 N 次参数更新无漂移的稳定性验证

12.8 v1.5+: 垂直扩张 (不在引擎路线图)¶

以下属于 platform/ 子仓路线, 不在 core 引擎范围:

飞驼云仓 production ready 数据飞轮

扩仓储通用 (第二行业模板抽象)

扩物流全栈 (TMS/WMS/OMS 三域)

行业模型矩阵管理

12.9 v3.0+ 研究级¶

[ ] Credit assignment 方案 (contextual bandit + shadow + hierarchical attribution)
[ ] 冷启动 meta-learning (cross-customer parameter transfer)
[ ] MetaEvaluator 实现 (评估器本身校准)
[ ] 剩余参数维度覆盖 (Bundle 结构 / 缓存 / prompt 模板 / Agent 分工)

12.10 优先级判断 (当下最重要的 3 件)¶

叙事修正 (v0.1.x) — 成本最低, 影响最大
反馈信号设计文档 (v0.2) — 后续实现的前置, 不动代码
合规工具链 P1×7 (v0.2) — 销售必答题, 无这些客户不敢买

以上完成后立即进入 v0.3 反射器 MVP.

13. 附录¶

13.1 PDF 章节映射 (TMS 动态承运商分配文档)¶

PDF 章节	内容	evolve Level
5.1-5.5 核心设计原则	单仓作用域 + 人工>规则>预测 + LLM 不做主决策	—
10 人工快速干预层	TTL 补丁生成 (自然语言→YAML)	1
12 包装知识解析器	三种状态 + 预测补全	2
14-15 承运商候选 + 结果预测	ML 预测器层	3 (参数可校准)
16 不确定性评估器	保守/审核/兜底决策	2
20 报价配置导入	文档解析 → DSL → 仿真 → 审批	1
23 目标可达性评估器	reachable/not 判断	2
24-26 配额/阶梯/均重池	数值状态引擎	3 (参数可校准)
27 经营先验注入	forecast_commitment_patch	1
28 有效边际成本	数值模型	3
29 决策公式	线性加权 FinalDecisionScore	3 (系数可校准)
30 滚动时域优化	未来 30 分钟 / 2000 单批	1-2
31-33 结算回放	对账 + 假设分析	长反射 backbone
35-36 大模型定位	用于 vs 不用于清单	验证 Level 拆分
40-42 监控指标	业务/报价/运行三套	Flyto Observer 接入点

13.2 学术论文清单¶

Must-read:

Comprehensive Survey of Self-Evolving AI Agents (arXiv 2508.07407)
Survey of Self-Evolving Agents (arXiv 2507.21046)
Maestro: Joint Graph & Config Optimization (arXiv 2509.04642) — 最接近 Flyto 定位
Evolving Excellence / Artemis (arXiv 2512.09108) — 唯一支持混合变量

Nice-to-read:

MLOps 现状:

13.3 相关 memory 条目¶

project_agent_engine.md — 引擎项目状态
project_strategy.md — 战略定位 (含 "领域无关 = 全领域" 校准)
project_architecture_decisions.md — 架构决策 (含数据接入边界)
project_evolve_rl_stance.md — evolve RL 立场 (2026-04-18 校准)
project_agent_teams.md — Agent Teams 方向
project_plugin_permissions_ui.md — plugin 权限 UI 北极星
project_sandbox_local_vs_cloud.md — 本地 vs 云端沙盒
project_tui_positioning.md — tui 定位
project_version_roadmap.md — v0.1 vs v1.0 路线
project_prompt_strategy.md — Prompt 策略

13.4 四方调研原始结论 (流水账归档)¶

Sonnet critic 五点反驳 (一级反向思考):

"OpenAI 做不了" 是时间点谬误
MLOps 工具链已做 5 年
N 维参数联合优化复杂度指数增长
B 端 TMS 反馈信号脏
客户要可预期不要一切可变

MiniMax 中国视角: 国内大厂停在模型层和编排层, 大厂劣势是组织不是技术. 企业接受度高但要可控可解释. 致命盲点: 缺人机协同治理.

Agent A 全网学术+开源调研: 2025 两篇 survey 明确标注未覆盖. 学术底座 30-40% (Maestro/Artemis/Trace), 业务 KPI 闭环 0% 端到端. MLOps 只做 drift 重训 (推翻 Sonnet 第 2 点). 工业 TMS/WMS "adaptive neural models" 口号级, 公开披露空. 国内字节 AGILE / 阿里 AgentScope / 百度文心 / 腾讯元器都停在 "开发/编排/部署平台". Agent A 结论: 护城河不在能做, 而在 credit assignment 和稳定性悖论.

Haiku meta-critic (二级反向思考):

✅ MLOps 工具链论点被推翻 (Agent A 胜 Sonnet)
✅ 参数空间复杂度是真实障碍 (三方一致)
✅ 合规/可解释是销售现实 (三方一致)
❌ OpenAI 3 年内可做被推翻 (学术数据过去 3 年 0% 端到端)
⚠️ B 端反馈信号脏部分成立 (工程风险提醒)
❓ 冷启动 + 稳定性悖论具体方案未设计 (Flyto 自己要解决)

Haiku 综合判断: 护城河 60% 有条件成立. 业界唯一端到端闭环的产品级实现方向, 学术 0% + 商业 0% + 开源 0%.

13.5 竞品清单 (归档)¶

直接竞品 (Agent 自进化): Hermes (Nous Research 93k stars), Evolver/EvoMap (中国开源 MIT), Voyager (Minecraft 研究), AgentEvolver (arXiv 2511.10395), EvolveR (arXiv 2510.16079).

间接竞品 (技术底座): Maestro (arXiv 2509.04642), Artemis / Evolving Excellence (arXiv 2512.09108, TurinTech), Trace / OPTO (NeurIPS 2024 Microsoft), DSPy (Stanford).

MLOps 工具链: MLflow / Weights & Biases / Neptune / Superwise, Microsoft Contextual Bandit Decision Service, LangSmith.

工业 AI 产品 (口号级): Trimble AI-powered TMS, Pando Adaptive TMS, Intellitrans AI TMS, Imubit.

国内大厂/物流: 字节 AGILE, 阿里 AgentScope / 通义 / 扣子, 百度文心智能体平台, 腾讯元器 / 混元, 菜鸟天机π / 京东物流超脑 / 顺丰丰知, 华为盘古 / 智谱 / 第四范式 / 明略科技.

13.6 本文档关联 TODO 清单¶

合规工具链 (§10.3, §12.3 对应):

[ ] P1: SQL 只读校验 / DB Dry-run / 影子表 / 熔断器 / CAS / AuditSink DB / Staging 表

evolve 新增 (§7, §12 对应):

[ ] P2: core/docs/feedback_signal_design.md 设计文档
[x] P2: core/pkg/evolve/parameter_evolver_default.go + ParameterStore + ParameterEvolver -- delivered 2026-04-18
[x] P2: core/pkg/evolve/default_log_replayer.go + LogReplayer 接口 -- delivered 2026-04-18
[ ] P3: ConvergenceValidator 实现
[ ] P3: 稳定性 SLO 定义
[ ] P3: 演化透明度面板 (引擎侧 API)
[ ] P4 (研究): Credit assignment 方案
[ ] P4 (研究): 冷启动 meta-learning
[ ] P4 (研究): MetaEvaluator 实现

叙事修正 (§11 对应):

[ ] P1: CHANGELOG v0.1.0 evolve 条目修正
[ ] P1: README Evolve 章节补充学术背书
[x] P1: core/pkg/evolve/doc.go 挂 arXiv 引用 -- delivered 2026-04-18

文档结语¶

本文档是 2026-04-18 战略讨论 + 2026-04-19 重大校准的整合版 (1242 → ~820 行). 详细讨论过程归附录, 正文只保留结论.

下一步: 接口讨论 → 接口实现 → 抽象设计回写本文档.

最后修改: 2026-04-19 作者: 飞驼产品经理 × Claude Opus 4.7