视觉语言模型
功能介绍
本章节介如何在RDK平台体验端侧 Vision Language Model (VLM)。得益于书生大模型, SmolVLM 的优秀成果, 我们在RDK平台上实现了量化与部署。同时, 本示例基于 llama.cpp 中 KV Cache 的强大管理能力, 结合 RDK 平台 BPU 模块的计算优势, 实现了本地 VLM 模型部署。
代码仓库: (https://github.com/D-Robotics/hobot_llamacpp.git)
支持平台
| 平台 | 运行方式 | 示例功能 |
|---|---|---|
| RDK X5, RDK X5 Module | Ubuntu 22.04 (Humble) | 端侧视觉语言大模型体验 |
| RDK S100, RDK S100P | Ubuntu 22.04 (Humble) | 端侧视觉语言大模型体验 |
支持模型
算法信息
| 模型 | 参数量 | 量化方式 | 平台 | 输入尺寸 | image encoder time(ms) | prefill eval time(ms/token) | eval time(ms/token) |
|---|---|---|---|---|---|---|---|
| InternVL2_5 | 1B | Q4_0 | X5 | 1x3x448x448 | 2456.00 | 7.7 | 51.6 |
| InternVL3 | 1B | Q8_0 | S100 | 1x3x448x448 | 2851.00 | 9.19 | 41.65 |
| Smolvlm2 | 256M | Q8_0 | X5 | 1x3x512x512 | 1053 | 9.3 | 27.8 |
| Smolvlm2 | 500M | Q8_0 | X5 | 1x3x512x512 | 1053 | 27.3 | 65.7 |