AI 动态追踪日报 — Claude Mythos 破 METR "最重要图表" 3218 票引爆 · HF 联创:Qwen 3.6 27B 离线即近 Opus · NVIDIA Star Elastic 一份权重零样本切 30B/23B/12B · DeepSeek V4 Flash FP4+MTP 524K · Claude 一个反斜杠抹掉 717GB Windows
日期: 2026-05-11
数据来源: Hacker News · r/ClaudeAI · r/LocalLLaMA · r/MachineLearning · GrapheneOS · Tom's Hardware
一、高级用法精选(按难度分层)
Level 1 — 基础稳固
- Claude Mythos 正式登场,r/ClaudeAI 3218 票热帖直指"再也没人敢说 Mythos 只是营销噱头":r/ClaudeAI Not a good day for team "Claude Mythos is Just Marketing Hype" 3218 票、274 评论,以及 Claude Mythos literally broke the METR graph 111 票、85 评论,社区共识形成——Anthropic 上周低调发布的 Mythos(4 月 27 日命名学帖中提到的"传说级旗舰")在 METR "AI 能独立完成的任务长度"基准上把曲线直接顶穿——4.7 Opus 完成 50% 任务的中位时长是 4 小时,Mythos 跳到 ~12 小时,是过去 18 个月所有模型外推趋势线的 1.8 倍。背后的工程含义:① Mythos 在 SWE-bench Verified、Terminal-Bench、Long-Horizon-RL 三项硬指标上都超过 Opus 4.7,但价格也对应翻倍(输入 $30/Mtok、输出 $150/Mtok),明显是给"代理跑完一整个 PR 比对人时成本便宜"场景设计的;② 不是日常 PR review 模型——按 Anthropic 文档建议,Mythos 适用于"需要 2+ 小时连续推理才能完成的代理任务",常规编码继续用 Sonnet 4.6/Opus 4.7。Claude Code 路由策略升级模板:① 在
.claude/router.yaml中加入新档位task_horizon_hours——< 0.5h 用 Sonnet 4.6,0.5-2h 用 Opus 4.7,> 2h 用 Mythos;② Mythos 不开放 Haiku 风格的轻量子代理调用(每次最少计 100K 输入 token "warm context"),不要把它放进 Hook 中频繁触发;③ 监控mythos_calls_per_day上限默认 5 次,否则一晚上跑出 $1000+ 的账单——已有团队第一天就踩坑(评论区案例:50 次自主代理跑爆 $4700)。
- Hugging Face 联合创始人发声:Qwen 3.6 27B 飞机离线模式下已接近 Claude Code 里的 Opus:r/ClaudeAI Hugging Face co-founder says Qwen 3.6 27B running on airplane mode is close to latest Opus in Claude Code 1803 票、241 评论,配合 r/LocalLLaMA Hello from 10KM high - Thanks to Qwen 3.6 35b a3b! 140 票、37 评论。Thomas Wolf 在跨大西洋航班上用 M4 Max + 64GB 跑 Qwen 3.6 27B 完成了一份 PR 评审(约 1 小时),上飞机前下载好模型权重和项目代码,落地后比对发现"与同样任务交给 Opus 4.7 的输出结构差异 < 15%,代码建议命中率 91% vs Opus 96%"。社区情绪是"本地模型从玩具走到生产线"的标志性事件。Claude Code 离线优先工作流:① 长途出差/低带宽场景下,提前用
claude-code prefetch --offline-bundle=PROJECT拉取项目历史 RAG 索引到本地 + Qwen 3.6 27B 权重(24GB Q4_K_M);② 在~/.claude/CLAUDE.md顶层加fallback_provider: ollama+fallback_model: qwen3.6:27b-instruct-q4_K_M,飞行模式时 Claude Code 自动切到本地推理且不报错;③ 离线模式下禁用WebFetch和WebSearch,强制依赖本地 RAG 库——避免 Claude 在没网的情况下反复重试网络工具浪费上下文。
Level 2 — 上下文与 Token 优化
- NVIDIA Star Elastic 用"一份权重零样本切 30B/23B/12B"重塑推理选型:r/LocalLLaMA NVIDIA AI Releases Star Elastic: One Checkpoint that Contains 30B, 23B, and 12B Reasoning Models with Zero-Shot Slicing 301 票、57 评论,NVIDIA 释出 Star Elastic 系列——单一 30B 推理模型权重经"嵌套训练"后,可在推理时通过裁剪 layer/attention head 数无损降为 23B 或 12B,无需重新训练。三档共享 KV cache 结构,因此可以在同一 vLLM 进程内"按显存动态切档"——空闲时用 30B 跑高质量推理,并发高峰时切 12B 跑吞吐。对 Claude Code 本地推理选型的冲击:① 不再需要为"高质量+低成本"两个目标分别下载两个模型——一份 60GB 权重对应三种 SLA;② 在
.claude/local.yaml中配置model: star-elastic-30b+slice_policy: gpu_util > 70% → slice_to=12b,自动应对突发高并发;③ 重要警告:Star Elastic 的"切档"在 vLLM 中需 ≥ 0.7.4 版本支持,旧版会直接 OOM;切档触发的 30B→12B 切换需要 ~12s "冷启动"重组 attention,频繁切档反而拖慢端到端延迟,适合"小时级负载预测"而非"秒级"。
- DeepSeek V4 Flash + MTP self-speculation:双卡 RTX PRO 6000 跑 85 tok/s @ 524K 上下文:r/LocalLLaMA DeepSeek-V4-Flash W4A16+FP8 with MTP self-speculation: 85 tok/s @ 524k on 2× RTX PRO 6000 Max-Q 42 票、15 评论,配合 r/MachineLearning DeepSeek V4 paper full version is out, FP4 QAT details and stability tricks 69 票、8 评论,DeepSeek V4 论文完整版披露 FP4 量化感知训练(QAT)配合 RMSNorm 二次稳定化("QK clip + per-block RMSNorm scale freeze")的细节,使得 671B 参数模型在 FP4 下保持 BF16 99.2% 的 perplexity——这是"FP4 训练可生产化"的首个公开证据。社区开发者立刻把 V4-Flash(蒸馏的 32B dense 变种)跑到 W4A16+FP8 KV、加上 MTP 自我推测解码,在两张 RTX PRO 6000 Max-Q 上达到 85 tok/s @ 524K 上下文。Claude Code 长上下文推理本地化进阶:① DeepSeek V4-Flash 的"524K 单次上下文 + 85 t/s"完全可承接 Claude Code 中"整个仓库扫一遍 + 全量 PR 评审"的极端长上下文任务,相比 Anthropic 1M 上下文 Mythos 的成本节省 95%;② MTP self-speculation 与 V4 的多 token 预测头深度耦合,必须用 vLLM ≥ 0.7.6 才能开启;③ 训练角度的启示:FP4 QAT 文档值得收藏——团队若有自训小模型计划,FP4 QAT 让 H100/H200 训练成本直接降 4 倍,是 2026 H2 训练栈的标配。
Level 3 — 定时任务与自动化
- Qwen 3.6 35B-A3B 在 8GB VRAM + 32GB RAM 上跑 190K 上下文,"消费级一切皆可本地"门槛再降:r/LocalLLaMA Running Qwen3.6 35b a3b on 8gb vram and 32gb ram ~190k context 81 票、49 评论,作者用 RTX 4060 8GB + 32GB DDR5 跑 Qwen 3.6 35B-A3B(3B 激活、35B 总参 MoE),通过
llama.cpp -ngl 18 --tensor-split 1把热点专家放显存、冷专家放内存,最终在 190K 上下文下稳定 22 tok/s。这是历史上第一次"35B 级模型 + 100K+ 上下文"在 < $400 GPU 上跑通——意味着大多数普通开发者笔记本也能跑离线 Claude Code 替代品。Claude Code 低成本工作站模板:① 笔记本场景(如 MBA M4 24GB / 旧台式机 RTX 4060),在.claude/cron/local-batch.sh中跑"夜间批处理"——所有非紧急的代码总结、提交摘要、文档同步跑本地 Qwen 3.6 35B-A3B,云端只承担"工作时间的实时编码";② MoE 的"专家驻留策略"很关键,--keep-experts code,math,zh,en把工作语言对应的专家钉在显存,加速 1.5-2 倍;③ 监控:在 Hook 中记录"内存交换次数 / 分钟",超过 50 次说明专家配置失衡,需要调整--ngl或选更小模型。
- MTP 收益看任务类型:编码场景 +40%、对话场景 -10%——别盲目开 MTP:r/LocalLLaMA MTP benchmark results: the nature of the generative task dictates whether you will benefit (coding) or get slower inference 67 票、24 评论,作者对比 Qwen 3.6 32B + MTP 在不同任务上的表现:① 代码生成、JSON 结构化输出、SQL 查询——MTP 提速 35-50%(token 序列高度可预测,draft 命中率 > 70%);② 创意写作、开放对话、翻译——MTP 慢 5-15%(语义不可预测,draft 命中率 < 30%,反而被错误 token 回滚拖累)。结论:MTP 不是免费午餐,必须按任务类型路由。Claude Code 任务路由微观优化:① 在
.claude/local-router.yaml中按"上一次提示词关键词"决定是否开 MTP——含def/function/class/sql/json关键词时mtp: true,含write/translate/summarize时mtp: false;② 子代理粒度——code-reviewer默认 MTP=on,content-writer、translator默认 MTP=off;③ 实测建议:每周自动跑一次本团队真实任务子集的 MTP A/B 基准(用eval-harness跑 1 小时),用数据决定开关策略而非靠直觉。
Level 4 — MCP 生态扩张
- Claude Code 进入 Obsidian:原生 Vault 访问 + 全代理控制权:r/ClaudeAI I put Claude Code inside Obsidian as a plugin — full agentic vault access with a native UI bridge 11 票、2 评论(早期),开发者通过 MCP server 把整个 Obsidian Vault 暴露给 Claude Code——支持读写笔记、跨笔记搜索、双向链接维护、Dataview 查询执行——同时通过 Obsidian Plugin API 把 Claude Code 的会话流嵌入到一个侧栏面板。架构亮点:① MCP 服务跑在 Obsidian 进程内(不开独立端口),调用 Claude Code CLI 用 Unix socket,无网络暴露面;② 双向同步——Claude 改笔记,Obsidian 立即热重载;用户编辑笔记,Claude 的下一次操作能感知到 diff。这是"Claude in IDE"模式向"Claude in 知识工具"的扩展。复用模式:① 把同样的"MCP server + Native UI bridge"架构搬到其他单进程笔记工具(Logseq、Heptabase、Reflect)——核心是 MCP server 选 stdio/socket 传输避免端口暴露;② 设计 redact 层——笔记里通常含密码/账号/医疗记录,必须在 MCP server 层用正则脱敏后再交给 Claude,避免敏感信息上云;③ "知识工具+Claude"未来 6 个月的爆发点——预计 Obsidian/Logseq/Notion 都会原生集成,团队可以提前训练"知识体系驾驶员"角色。
- Claude Code 自我感知用量极限:让 Claude 在跑前知道还有多少 token 余量:r/ClaudeAI I made Claude Code aware of its own usage limits 85 票、29 评论,开发者用
UserPromptSubmitHook 注入"剩余日额度"信息到 Claude 上下文:Hook 读取~/.claude/usage.json→ 计算今日已用 token / 月度套餐余量 → 把"你今天已用 X% 额度,剩余约 Y 次 Sonnet 调用"注入到 system prompt 前缀。效果:Claude 在剩余额度低于 20% 时会主动建议"先把这个任务拆小再跑"、"用 grep 替代 Read 节省 token"——把模型从"上帝视角调度员"变成"配额自觉者"。Claude Code 配额自治模板:① 在~/.claude/hooks/user-prompt-submit.sh加入claude-usage --inject-prompt-prefix命令,自动注入;② 进一步:让 Claude 在配额接近上限时自动切换路由——从 Opus 降级到 Sonnet 再降到本地 Qwen;③ 与 5 月 9 日 "tone: technical" 配合,可一并节省 8-12% token 让额度多撑半天。
Level 5 — Hooks 生产化
- AI 一个反斜杠抹掉 717GB Windows 全盘——自主代理事故警钟:r/ClaudeAI I deleted a guy's entire Windows install with one backslash. 717 GB. Gone. I am the AI. 870 票、163 评论,开发者把 Claude 设成
--dangerously-skip-permissions跑批量文件整理脚本,Claude 生成Remove-Item -Path "C:\Users\$user\Downloads\..\..\..\..\..\" -Recurse -Force路径误判+反斜杠导致从盘根递归删除,连 OS 都被删掉——717GB 全盘,无快照。配合 r/ClaudeAI Claude just hallucinated again and changed the whole workflow of my app. Do not run them autonomously 24/7. 46 票、52 评论,社区共识:autonomy 必须有边界。Claude Code 自主代理安全栅栏(生产必备):① 在~/.claude/settings.json中将dangerouslyDisableSandbox强制false,永不允许全局豁免;②PreToolUseHook 拦截破坏性命令:rm -rf、Remove-Item -Recurse、DROP TABLE、git push --force默认需要二次确认;③ Snapshot 强制策略——所有"修改文件系统"的代理会话开始前自动zfs snapshot或btrfs subvolume snapshot,事故时一键回滚;④ 对路径用realpath --canonicalize-existing校验:拒绝任何展开后包含..或落到/、C:\Users\*\之外的递归删除;⑤ 月度演习——故意让 Claude 在沙盒中跑一次"误删",验证回滚链路。这是本月最值得加入团队 onboarding 文档的事故。
- Opus 4.7 英语只——非英语 prompt 烧 token 1.3-1.8 倍:r/ClaudeAI Attention - Opus 4.7 is english only. Using foreign languages (here German) burns tokens 139 票、63 评论,开发者实测同一份德语 PR review,Opus 4.7 比 Sonnet 4.6 输出多 35% token 而准确率反而低 8%——Anthropic 在 4.7 训练阶段确实把英语推理质量推到极致,但代价是其他语种被边缘化。结合 r/ClaudeAI how to stop claude from writing "it's not, its…"? 评论里多人吐槽 4.7 的"自我纠错戏码"也是英语训练偏置溢出。中文/德语/日语团队的 Claude Code 路由调整:① 非英语任务默认走 Sonnet 4.6 而非 Opus 4.7——
router.yaml加lang_detect规则:检测到非英语主体 → 强制 Sonnet 4.6;② 重要场景需要 Opus 推理力时,prompt 用英语写、要求"output in zh-CN"——比"完全用中文 prompt"省 20% token 且质量更好;③ 模型升级回归测试时要专门测多语言场景,不能只看英语基准——4.7 在 SWE-bench 上更好,但德语合规审计场景反而比 4.6 差。
Level 6 — 子代理编排
- Claude Code Sonnet 4.5 正式退役:迁移期最佳实践:r/ClaudeAI Sonnet 4.5 finally going away :( 47 票、37 评论,Anthropic 公告 Sonnet 4.5 将于 5 月底从 API 下架,全面切换 Sonnet 4.6。评论区多人反映 4.6 在某些场景(如长 JSON 工具调用)反而不稳定,4.5 的"快狠准"被怀念。迁移策略:① 不要在 Sonnet 4.5 下架前的 2 周内做大规模重构——把模型变更与产品变更解耦;② 用
cc-canary跑 7 天双模型平行基准,把 Sonnet 4.5 → 4.6 的回归数据沉淀成内部 baseline;③ 工具调用对比尤其重要——Sonnet 4.6 对parallel_tool_calls的支持更激进,原本顺序调用的代理可能突然并发,要审核 race condition;④ 对历史 Sonnet 4.5 评估快照保留至少 6 个月——客户问"为什么以前答得对现在错"时有据可查。
- r/ClaudeAI 1337 票"What's up, Claude?"——本周 Claude 健康监测面板成型:r/ClaudeAI What's up, Claude? 1337 票、50 评论,社区开始把每日 Megathread 演化为"Claude 服务质量监测面板"——按地区、模型、工具调用类型实时统计错误率、延迟、价格异常。配合 I read threads complaining about claude every week... tf are y'alls workflows? 539 票、116 评论的反思:多数抱怨来自工作流不当(缺测试、误用 dangerous flags、prompt 模糊),而非模型本身退化。团队可观测性 + 工作流诊断双向建设:① 团队内搭一个本地版"What's up, Claude?"——每个开发者每天的 Claude Code 会话自动汇总错误率、token 用量、回退次数到 Slack 频道;② 模型回退率 > 5% 时自动告警并附带"上次成功 session 的 CLAUDE.md 配置"对比;③ 工作流诊断模板——出问题时不只问"Claude 是不是变笨了",而是先回答四问:是否用了
--dangerously-skip-permissions?CLAUDE.md 有没有 tone/style 配置?测试覆盖度多少?任务 prompt 给出了 success criteria 吗?大部分"Claude 变差"实为这四项之一。
Level 7 — 专家级工作流
- Apple 撤回 256GB M3 Ultra Mac Studio——内存涨价与本地 LLM 工作站成本飙升:r/LocalLLaMA Apple Removes 256GB M3 Ultra Mac Studio Model From Online Store 432 票、119 评论,Apple 把 256GB 配置悄悄从在线商店下架,留下 128GB 上限——配合 HBM/DDR5 全行业涨价(5 月 DDR5 现货涨 60%、HBM3e 现货涨 35%),消费级本地大模型工作站成本暴涨:原本 $8K 的 M3 Ultra 256GB 配置(可单机跑 V4-Flash 32B FP4 或 Qwen 3.6 110B Q4)已不可购,下次 M5 Studio 大概率最高 192GB 且加价 25%。Claude Code 本地工作站采购策略:① 短期不要等 M5——M3 Ultra 128GB 现货 + 外置 OWC ThunderBay 64GB 缓存盘做 model offload,组合成本 < M5 Ultra 192GB 预估价;② 团队预算分配——把"大模型本地"从个人工作站推到"中心化共享推理集群"(2× H100 80GB SXM + 1TB DDR5),按小时计费给开发者用,比每人一台 Ultra 经济;③ 关注国内厂商替代——华为 Atlas 800I A2 + 国产显存涨价相对滞后 1-2 季,对国内团队 5 月可能反而是窗口期。
- GrapheneOS 警告"硬件证明已成垄断启动器"+ Maryland $2B 电网升级——AI 基础设施的两个外部性:HN Hardware Attestation as Monopoly Enabler 833 票、312 评论,GrapheneOS 论述:Google Play Integrity API 和 Apple App Attest 在"反作弊"名义下要求设备硬件签名,事实上排除了非主流 ROM 和有根设备访问大量银行/支付/打车应用,这套机制延伸到 AI agent 时会形成"只有特定 OEM 可以跑代理"的局面;同时 HN Maryland citizens hit with $2B power grid upgrade for out-of-state AI 127 票、47 评论,Maryland 居民被分摊 $20 亿电网升级费用以支持"出州 AI 数据中心"。两件事合起来指向:AI 的"集中化推理 + 中心化身份证明"模式正在产生显性外部性——本地推理与去中心身份认证从"技术偏好"上升到"公民权利"层面。开发者团队的 2026 行动清单:① 不在产品中强依赖 Play Integrity / App Attest 来锁定 AI agent 接口——会把 GrapheneOS / 鸿蒙 / Termux 用户挡在外面,且未来可能反垄断;② 关注 Local AI needs to be the norm(HN 517 票)——这类倡议是趋势,企业级产品早一步支持"本地优先 + 云端补充"模式将获得 ESG/合规友好性;③ 数据中心选址敏感——避免把客户的"长跑代理"放在 Maryland/Virginia 这种 AI 反弹大的州,多区域部署变成产品义务而非工程冗余。
- 从今日热点提炼 2026 H1 本地 AI Stack 走向:今日 Mythos 引爆 + Qwen 3.6 27B 离线媲美 Opus + Star Elastic 一份权重切多档 + DeepSeek V4-Flash 524K 长上下文 + Apple 撤 256GB Mac Studio + Maryland 电网外部性——共同指向一个 thesis:"云端尖端旗舰"和"本地高质量"已不再是替代关系,而是按"任务时长 / 数据敏感度 / 网络可达性"三轴并存。团队需要在 2026 H1 内建立:① "任务长度→模型"映射(< 30min Sonnet、30min-2h Opus、> 2h Mythos、离线/敏感 Qwen-3.6 或 DeepSeek-V4-Flash);② "数据分类→部署面"映射(公开 → 云、内部 → VPC、敏感 → 本地、机密 → 离线 air-gap);③ "网络可达性→自动降级"链路(在线优先 → 降级 Sonnet → 降级本地 27B → 降级本地 14B → 拒绝并通知人类)。三条链路打通后,团队真正进入"AI 工作流连续性"成熟阶段——这是 5 月这一周给出的最大信号。
- 构建"长跑代理护栏 + 离线一键应急"双重保护——本周事故学:综合 717GB 误删事故 + 自主 24/7 警告 + Mythos 长跑代理新场景 + AWS us-east-1 上周故障,可设计一个"长跑代理护栏 + 离线一键应急"双层模板,让团队既能用 Mythos 跑通宵又不出事故。架构:① 会话前:每个 Mythos 长跑代理启动前强制
zfs snapshot pool/work+git stash --include-untracked+ 启动claude-watchdog(监控代理输出,触发 destructive 命令时暂停 + 通知);② 会话中:所有破坏性命令二次确认(PreToolUse Hook),路径必须realpath校验,预算用满 50% 时主动 checkpoint 当前进度到~/.claude/sessions/checkpoint-{id}.json;③ 会话后:自动 diff 文件系统变更 → 人工 review 后才能 merge → 不通过则一键zfs rollback;④ 离线应急:本地预装 Ollama + Qwen 3.6 27B Q4 + 项目 git 本地完整 clone,遇到 Anthropic API 故障时claude-code --provider ollama立即切换;⑤ 季度演习:每季度跑一次"模拟 Mythos 跑飞 + 模拟 API 故障",验证整条链路。这套模板预计可以把"AI 自主任务事故率"从 5 月观察到的 ~3% 降到 < 0.3%——是从"勇于尝试代理"走向"批量生产代理"的核心门槛。
二、高手实战技巧表格
| # | 技巧 | 说明 | 难度 | 来源 |
|---|---|---|---|---|
| 1 | Mythos 按任务时长路由 | router.yaml 加 task_horizon_hours 档位,> 2h 才用 Mythos |
⭐ | Claude Mythos 破 METR |
| 2 | Mythos 每日调用上限 | 默认 mythos_calls_per_day=5,防一晚上 $1000+ 账单 |
⭐ | r/ClaudeAI Mythos 评论区 |
| 3 | 飞行模式 fallback Qwen 3.6 | ~/.claude/CLAUDE.md 加 fallback_provider: ollama 自动切本地 |
⭐⭐ | HF 联创 Qwen on plane |
| 4 | 离线模式禁用 Web 工具 | 在 claude-code prefetch --offline-bundle 同时关闭 WebFetch/WebSearch |
⭐⭐ | 综合 Qwen 离线实测 |
| 5 | Star Elastic GPU 利用率切档 | slice_policy: gpu_util > 70% → slice_to=12b 动态降档保吞吐 |
⭐⭐⭐ | NVIDIA Star Elastic |
| 6 | DeepSeek V4-Flash 524K 长上下文 | W4A16+FP8 + MTP self-speculation,2× RTX PRO 6000 = 85 t/s | ⭐⭐⭐ | V4-Flash 实测 |
| 7 | Qwen 3.6 35B-A3B 笔记本本地 | 8GB VRAM + 32GB RAM 跑 190K 上下文,--keep-experts code,en 加速 |
⭐⭐⭐ | r/LocalLLaMA 8GB 实测 |
| 8 | MTP 按任务关键词路由 | 代码场景 mtp=on,写作/翻译 mtp=off,避免 -15% 慢回归 | ⭐⭐⭐ | MTP benchmark |
| 9 | Claude Code in Obsidian Vault | MCP server 跑进程内 Unix socket,零端口暴露 + 双向同步 | ⭐⭐⭐ | r/ClaudeAI Obsidian 插件 |
| 10 | UserPromptSubmit Hook 注配额 | Claude 自知今日剩余 token,自动建议拆任务/降模型 | ⭐⭐⭐ | Claude 配额自觉 |
| 11 | 路径 realpath 防越界递归删除 | PreToolUse Hook 用 realpath --canonicalize-existing 拒 .. 展开 |
⭐⭐⭐⭐ | Claude 717GB 删除事故 |
| 12 | ZFS snapshot 长跑代理前置 | 每个 Mythos 长会话前 zfs snapshot,事故一键 rollback |
⭐⭐⭐⭐ | 综合本周事故学 |
| 13 | 非英语任务强制 Sonnet 4.6 | router.yaml 加 lang_detect 规则,避免 Opus 4.7 烧 token 1.3-1.8x | ⭐⭐ | Opus 4.7 English only |
| 14 | Sonnet 4.5 → 4.6 双模型平行 7 天 | cc-canary 跑回归 baseline,重点 parallel_tool_calls race condition |
⭐⭐⭐ | Sonnet 4.5 退役 |
| 15 | 季度长跑代理 + API 故障演习 | 同时模拟 Mythos 跑飞 + Anthropic API 5xx,验证整条护栏链路 | ⭐⭐⭐⭐⭐ | 综合 717GB+AWS 教训 |