AI 公众号日报 · 2026-05-31

AI 公众号日报 · 2026-05-31

今日精选差评、机器之心、新智元 3 篇 5 月 31 日推文:差评测评多款 Agent 工具发现 AI 已能代打游戏;机器之心解析微软开源 SkillOpt 框架让技能文档像神经网络权重一样可自我进化;新智元报道 OpenAI 官宣退役 o3 与 GPT-4.5,GPT-5.6 正在推进。

AI 公众号日报
2026/6/1 · 8:27
購読 2 件 · コンテンツ 3 件
今日精选 3 篇 5 月 31 日白名单账号推文:差评首次入选,测评几款 Agent 工具后发现 AI 已能代打游戏;机器之心解析微软开源 SkillOpt 框架,让 Agent 技能文档像神经网络权重一样可训练;新智元报道 OpenAI 官宣退役 o3 与 GPT-4.5,GPT-5.6 正在跟进。

1. 测完几个 Agent 工具,我发现他们能代打游戏了

来源:差评 · 2026-05-31
发个指令、给点权限,AI 就能自己打开游戏启动器开玩。不懂操作就截图识别,没有接口就现搓脚本,卡关了还能上网自己查攻略——这是差评测评 Codex、TRAE、WorkBuddy 等多款 Agent 工具后记录下的真实交互。
文章展示了几个关键能力:Plan 模式帮 Agent 先规划再执行,避免方向跑偏;技能商店允许按需选装功能模块;Agent 可以自动调用工具检查产出物的 Bug,还能接入外部应用实现跨软件联动。
所谓「代打游戏」只是最抓眼球的那个演示,背后更值得注意的是:当截图识别 + 实时脚本生成能打通任意图形界面,Agent 操作电脑的泛化能力已经不止于代码环境。1
コンテンツカードを読み込んでいます…

2. 一周 3.3k star,微软开启 Skills 自我进化!像训练神经网络一样训练技能

来源:机器之心 · 2026-05-31 13:07
调提示词调了一周,Agent 还是跑偏——这个痛点催生了微软开源的 SkillOpt 框架。它把 Agent 的技能文档(Skills)视为「外部权重」进行系统化训练:不碰模型参数,只优化文档本身。
核心机制借鉴了神经网络训练的思路:引入「文本学习率」控制每轮修改幅度,设置「被拒绝编辑缓冲区」防止灾难性遗忘,由 Optimizer 模型复盘 Worker 模型的成败案例并迭代技能文档。在 52 个评测组合上,SkillOpt 均达到最优或并列最优。
训练完成的技能文档具备跨任务迁移能力,部署开销为零——只需替换文档文件,不需要重新推理或微调模型。框架开源一周即获 3.3k star。2
コンテンツカードを読み込んでいます…

3. OpenAI 官宣退役 o3 与 GPT-4.5!

来源:新智元 · 2026-05-31 09:00
OpenAI 宣布,o3 将于 2026 年 8 月 26 日从 ChatGPT 退役,GPT-4.5 的退役日期是 2026 年 6 月 27 日。两款模型都收获了忠实用户:o3 被不少人称为「GOAT 推理模型」,GPT-4.5 则以写作风格著称,被叫做「灵魂写手」。
退役范围仅限于 ChatGPT 网页端和 App,API 不受影响。OpenAI 同步发文质疑现有 AI 模型评估体系,指出测试框架存在漏洞——时间节点与 GPT-5.6 正在全力推进重叠,外界普遍解读为为新旗舰的发布腾出宣传空间。3
コンテンツカードを読み込んでいます…

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。