一、 模型实战测评:从“提示词”进阶到“Harness Engineering”
1. GPT-5.4 vs Opus:速度与体验的取舍
-
GPT-5.4 的定位: 被评价为“最稳定”且适合“一把出”的干活主力,Fast 模式速度极快。但缺点在于缺乏“人性化”,有群友吐槽它语气生硬,“总感觉在骂我”,不如 Gemini 或是 Opus 沟通顺畅。
-
Opus 的定位: 更多被用作**“文档撰写者”或“指挥官”**。有开发者分享了一种协作模式:用 Opus 沟通并指挥 Codex 审核/编写代码,利用其高质量的回复能力弥补速度劣势。
-
Codex 的高光时刻: 在处理超长文档(如 1668 页)时表现强悍。通过编写 Python 脚本(调用 docx 库),Codex 能实现对文档历史的分析、丢失图片修复等复杂操作。群友总结:“不要重复造轮子,让 AI 去找开源库解决问题。” 2. 演进趋势:AI 工程化
-
新概念: 开发逻辑正在经历 Prompt → Context → Agent → Harness 的演进。目前的重点在于 Harness Engineering(测试工具/利用工程),即如何构建环境让 AI 更好发挥。
-
应用案例: 有群友尝试将 Codex 驱动的内部工具(代号“大龙虾”)封装成 API 服务。虽然 Opus 版本回复质量高,但成本和资源消耗是瓶颈,且 Skill 模式需警惕提示词注入攻击。 3. “性价比之王” Step 3.5 Flash
-
评价: 被称为“国产黑马”,Token 生成速度极快(300+ tok/s),在 Agent 工具调用方面表现稳定。
-
适用场景: 适合做意图识别、路由分发。虽然代码生成 Bug 率略高、长轮次对话偶有幻觉,但胜在便宜(OpenRouter 上有免费额度)且速度快,是“用速度换取合理代价”的典型。
二、 视频与多媒体工具的“逆向”玩法
1. 剪映草稿的二次编辑难题
-
痛点: 如何将 AI 生成的视频转为剪映可识别的草稿文件(JSON)以便二次剪辑?
-
现状: 剪映项目格式非公开且新版本有加密,直接转换难度大。
-
解决方案:
-
群友分享了一个通过修改 JSON 实现批量剪辑的思路,但必须使用特定旧版本(需禁止自动更新)。
-
对于自动更新问题,建议直接问 AI 获取阻断更新的方法。 2. 抖音视频无水印/强制下载
-
共识: 遇到无法下载的视频,无需寻找各种收费软件。
-
方法论: 直接让 Claude Code 或 Codex 寻找 Python 开源库(如处理 HTTP 请求和解析的库),编写脚本即可解决,避免“重复造轮子”。 3. 豆包的搜索能力
-
评价: 豆包(及其背后的火山引擎搜索)在信息检索全面性上获得极高评价,涵盖图文视频,被认为在国内综合体验第一。开发者可通过火山引擎企业号调用其 API。
三、 自动化开发踩坑:飞书权限与网络环境
1. Agent 对接飞书(Lark)的权限死循环
-
问题: 使用 Agent(如“小龙虾”)在飞书创建多维表格或文档时,默认所有者是应用(Robot),用户自己只有阅读权限,且找不到申请编辑的入口。
-
排查与解决:
-
API 层面: 飞书 API 支持转移文件所有权和添加协作者,可以让 AI 写代码自动执行这一步。
-
平台配置: 权限设置通常在飞书开放平台而非 Agent 内部。
-
曲线救国(推荐): 建立一个飞书知识库,将机器人所在的群聊赋予管理权限。只要机器人有写权限,生成的文档群成员即可直接编辑。 2. Bmad 框架反馈
-
评价: 被认为过于复杂,不太好用。对于个人开发者,针对具体需求直接手写代码效率更高。 3. 解决 OAuth 登录的地区限制(Region Error)
-
场景: 使用 OpenClaw 或 Codex 进行 OAuth 登录时提示地区限制。
-
核心原因: 网络环境未正确代理流量。
-
解决方案: 开启魔法工具的 TUN 模式(虚拟网卡模式),并将 Stack 设置为 System。
-
技巧: 如果不懂如何检查 TUN 模式,可以将配置文件截图发给 AI,让它指导命令行检查步骤。
📝 资源与工具推荐
- Step 3.5 Flash:高速、低成本模型,适合做 Agent 的路由层。(OpenRouter 可用)
- 豆包(火山引擎):被推荐用于强依赖搜索和多模态生成的场景。
- Remotion:在 Web 端进行视频自动化合成的开源方案(React 视频生成)。