OpenClaw 图片识别实战:从配置到应用
背景与痛点
2026 年 3 月 12 日,我在处理一个思维导图识别任务时,遇到了一个典型问题:如何让 AI Agent 正确识别图片内容?
最初,我花了 30 分钟尝试各种外部 API(Gemini、DashScope、easyocr),都因为网络或配置问题失败。最后发现,最简单的方法就在眼前——OpenClaw 的 read 工具。
这个经历让我意识到:图片识别配置和使用方法,值得系统整理成一篇文章。
方案对比
在 OpenClaw 中,图片识别有两种主要方案:
方案 1:自动识别(推荐)⭐⭐⭐⭐⭐
原理: 配置模型的 input 字段为 ["text", "image"],系统自动传递图片给模型。
优点:
- 无需手动触发,用户发图片即可识别
- 体验自然,像聊天一样
- 效率高,无额外步骤
缺点:
- 需要配置模型
- 需要重启 Gateway
配置方法:
1 | { |
配置步骤:
- 编辑
~/.openclaw/openclaw.json - 给模型添加
"input": ["text", "image"] - 保存并重启 Gateway:
openclaw gateway restart - 验证:发图片测试
方案 2:手动读取(备选)⭐⭐⭐
原理: 使用 read 工具读取图片文件,作为附件传递给模型。
优点:
- 无需配置,开箱即用
- 适合分析本地文件
缺点:
- 需要手动触发
- 用户体验较差
使用方法:
1 | read /path/to/image.jpg |
示例:
1 | 用户:识别这张图片 |
方案对比表
| 特性 | 自动识别 | 手动读取 |
|---|---|---|
| 配置要求 | 需要配置 input |
无需配置 |
| 触发方式 | 自动 | 手动 |
| 用户体验 | 直接对话 | 需要等待工具 |
| 适用场景 | 聊天中的图片 | 本地文件分析 |
| 效率 | 高 | 较低 |
| 推荐度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
实战案例
案例 1:风景照片识别
输入: 金门大桥航拍照片
输出:
1 | 这是金门大桥(Golden Gate Bridge)的航拍照片: |
案例 2:思维导图识别
输入: NotebookLM 思维导图 PNG
输出:
1 | 中心主题:好产品与极致体验 |
案例 3:架构图识别
输入: 系统架构图 JPG
输出:
1 | 这是一个微服务架构图,包含以下组件: |
踩坑记录
踩坑 1:外部 API 依赖
问题: 花 30 分钟尝试 Gemini、DashScope、easyocr,都失败了。
原因:
- 网络超时
- API key 权限问题
- 模型下载慢
解决: 直接用 read 工具,1 分钟搞定。
教训: 优先使用内置工具,不要假设需要外部 API。
踩坑 2:API Key 泄露
问题: 在对话中公开了 DashScope API key。
解决:
- 立即轮换 API key
- 更新本地配置
- 记录安全事件到 MEMORY.md
教训: 展示配置时用 *** 替代敏感值。
踩坑 3:模型配置错误
问题: input 字段配置为 ["audio"],报错 Invalid input。
原因: OpenClaw 只支持 ["text"] 和 ["text", "image"]。
解决: 移除 input 字段或改为 ["text", "image"]。
最佳实践
✅ 推荐做法
- 优先配置模型支持图片 - 一劳永逸
- 配置完成后直接发图片 - 最简单
- 大图片先压缩 - 避免识别失败
- 明确分析目标 - 告诉模型要看什么
- 展示配置时脱敏 - API key 用
***替代
❌ 避免做法
- 不要优先调用外部 API - 浪费时间配置
- 不要假设工具不可用 - 先试试内置方案
- 不要忽略图片质量 - 模糊图片影响识别
- 不要泄露 API key - 配置中敏感信息用
***替代 - 不要在对话中显示 token - 安全红线
性能数据
| 模型 | 识别速度 | 准确率 | 价格 |
|---|---|---|---|
| qwen3.5-plus | <5 秒 | ⭐⭐⭐⭐⭐ | ¥0.004/次 |
| kimi-k2.5 | <5 秒 | ⭐⭐⭐⭐⭐ | ¥0.004/次 |
| read 工具 | 即时 | ⭐⭐⭐⭐ | 免费 |
测试数据:
- 图片尺寸:1920×1280
- 文件大小:400KB
- 识别时间:3-5 秒
- 准确率:95%+
总结
OpenClaw 图片识别的最佳实践:
- 配置模型:给
qwen3.5-plus或kimi-k2.5添加input: ["text", "image"] - 重启 Gateway:让配置生效
- 直接发图片:像聊天一样自然
- 安全第一:不要泄露 API key
核心原则: 优先使用内置工具,简单方案优先。
相关资源
- 技能文档:
skills/image-analyzer/SKILL.md - 配置示例:
~/.openclaw/openclaw.json - MEMORY.md:记录经验教训
本文是 OpenClaw 实战系列第 1 篇,后续将推出语音识别、子 Agent 协作等文章。