截至 2026-05-28 UTC,理解 vivo BlueLM 工作的有效方式,不能停留在小模型趣闻上。更清晰的中国 AI 信号在于,vivo 正在尝试把手机本身做成严肃的 AI 端点,这会把技术纪律从云优先模型竞争引向另一组约束。放在手机上,真正决定体验的问题是内存、发热、延迟、量化、摄像头输入、系统钩子,以及助手能否利用本地上下文,同时避免每个动作都变成一次远程往返。[1][2][3]

因此,BlueLM 值得拥有一份公司档案,虽然 vivo 通常不会被放在中国模型优先实验室旁边讨论。公开记录呈现出一条连贯路径:BlueLM 开发者界面、开放的 BlueLM-7B 系列、CVPR 2025 上明确面向移动多模态推理的 BlueLM-V-3B 论文、后来的 BlueLM-2.5-3B 技术报告,以及说明系统层正围绕 BlueLM 能力重建的 OriginOS 材料。[1][2][3][4][5] 合在一起看,这些材料不只是研究产物。它们构成 vivo 将模型设计连接到手机分发的尝试。

图片语境:封面使用的是 Wikimedia Commons 上 vivo 东莞全球总部的真实照片。这张摄影图片把论述放回具体设备公司。这一点重要,因为本文论点具有制度层面含义:只有当模型、操作系统、芯片预算、摄像头栈和设备渠道能够作为一个产品系统运转时,BlueLM 才真正具有意义。[7]

实验室信号首先指向移动端,其次才是聊天机器人

vivo 的 BlueLM 开发者页面把这一模型家族描述为带有安全控制和独立评测入口的 AI 能力层,而开放的 vivo-ai-lab/BlueLM 仓库则保留了围绕开放多语言 7B 模型与微调支持的早期研究分支。[1][2] 这些材料值得关注,因为它们显示,vivo 的起点并非纯粹的手机功能宣传线。它把模型家族名称、开发者文档和面向代码的产物放进了公开视野。

更重要的转向出现在 BlueLM-V-3B 上。CVPR 2025 论文的标题已经点明主题:"Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices."[3] 这篇论文问的并不只是一个紧凑型视觉语言模型能否取得好成绩。它追问的是,当部署目标变成手机时,模型需要怎样重新设计。论文列出了一个 2.7B 参数语言模型、一个 400M 参数视觉编码器4-bit LLM 权重量化,以及在 MediaTek Dimensity 9300 处理器上报告的 24.4 tokens per second。[3]

只有把这些数字拿去和云端规模的前沿模型相比,它们才显得克制。放在设备端,它们就是问题本身。一个 3B 级多模态模型必须在功耗包络和内存预算内存活;服务器端那种继续叠加更多专家、更长上下文和更多推测分支的习惯,在这里没有同样空间。手机无法把每一处低效都藏进更大的集群里。

论文中的动态分辨率工作尤其说明问题。主流多模态系统常常大幅增加视觉 token 来保留细节。对手机而言,这笔开销很重。BlueLM-V-3B 转而把视觉分辨率当作一项预算决策:提供足以完成任务的细节,同时避免让手机把有限内存和算力花在冗余像素上。[3] 这区分了“我们能看图”和“我们能在本地看图,并且不让手机体验崩掉”。

BlueLM-2.5-3B 指向统一的设备端路线

后来的 BlueLM-2.5-3B 技术报告延续了同一主题。报告描述了一个面向设备端使用的紧凑稠密多模态模型,训练中采用了多样化数据整理、关键数据重采样、混合异构强化学习和高性能训练基础设施。[4] 值得注意的信号是连续性。vivo 没有把 CVPR 模型当成一次性论文处理。它正在围绕 3B 级移动多模态路线持续迭代。

这一点重要,因为最困难的产品问题在于约束下的能力重复交付,单个基准分数只能覆盖其中很小一部分。手机助手需要理解截图、从相机画面中提取文本、围绕可见 UI 推理、总结文档、编辑图像,或在保持响应性的同时回答本地问题。每一项任务都会把模型推向更丰富的感知能力。硬件预算则从另一侧施加拉力。

在这里,vivo 的公司位置开始变得相关。不同于模型 API 供应商,vivo 控制着设备表面。它可以围绕模型调校操作系统、相机流水线、图像特性、助手入口、内存调度和 NPU 利用率。它也可以选择哪些任务留在本地,哪些任务升级到云端模型。BlueLM 的战略价值不在于让每一种工作负载都离线运行,而在于 vivo 能够把本地/云端边界变成自有产品决策,摆脱通用 API 路由问题的限制。

公开的 OriginOS 材料支持这一读法。vivo 的 OriginOS 5 服务页面称,该系统基于 BlueLM 开发,并且 AI 能力已整合进系统各层。[5] 全球版 OriginOS 6 页面对 BlueLM 的指向没有那么具体,但它强调系统级智能界面、智能建议和生产力工具,显示出用户侧方向:AI 正被纳入操作系统的一部分,而不只是一个独立聊天应用。[6]

基准说法只有附上部署边界才有用

关于 vivo 2025 年 10 月 BlueLM 3B 发布的二级报道称,公司展示了一款设备端多模态推理模型,具备 128K 上下文,并声称它在面向移动端的榜单中位居 10B 以下模型首位。[8] 这些说法可以作为市场背景使用,但需要严格边界。公司发布排名和第三方榜单片段,无法充分说明提示模板、热持续时间、隐私模式、语言组合、应用集成,或反复用户会话之后性能如何保持。

更强的证据来自论文和官方材料中记录的工程方向。BlueLM-V-3B 报告的 2.2 GB 峰值内存占用、紧凑视觉语言设计和手机芯片吞吐说法,比泛泛的“最佳小模型”标签更有操作含义。[3] BlueLM-2.5-3B 对训练配方和设备端多模态行为的关注,同样比单独一行分数更重要。[4] 对开发者而言,问题不在于 vivo 能否报出某个榜单名称,而在于这家公司能否把小模型效率转化为稳定的操作系统行为。

这也是主要风险所在。设备端 AI 很容易被过度包装。模型可以在本地运行,却仍然慢到不适合日常交互。它可以处理截图,却在混乱应用状态中失效。它可以在一条路径中保护隐私,却在另一条路径中要求云端回退。它可以在最新旗舰芯片上运行良好,同时在中端设备上带来弱得多的体验。这些内容不是脚注。它们就是产品本身。

观察重点

第一个观察点是 vivo 是否继续发布技术边界。当 vivo 披露模型规模、量化、内存、基准条件和设备等级假设时,BlueLM 的可信度会提高。[2][3][4] 如果叙事收缩成含混的 AI 手机语言,它就会减弱。

第二个观察点是 OriginOS 的深度。如果 BlueLM 成为截图、文档处理、相机智能、编辑、日程和应用动作的系统级层,vivo 的手机分发就具有战略意义。[5][6] 如果它主要停留在带品牌的助手上,优势会收窄。

第三个观察点是本地/云端路由。最持久的手机 AI 栈既不会纯本地,也不会纯远程。它会判断哪些任务因为延迟、隐私、离线可用性或传感器访问而适合在设备端执行,哪些任务因为推理深度比即时性更重要而适合交给更大的云端模型。

结论由此变得清楚。vivo 的 BlueLM 在中国 AI 语境中重要,因为它让 AI 手机命题具体化。它说明下一轮竞争不只围绕更大的模型和更便宜的 API 展开,还要看一家手机公司能否把有用的多模态推理装进真实手机预算,绑定到操作系统,并让结果足够原生,使用户逐渐停止思考模型究竟运行在哪里。[1][3][5][6]

来源

  1. vivo Developers, "BlueLM" product page (developer-facing BlueLM entry point, safety capability framing, and contact surface for vivo AI developers)
  2. vivo AI Lab, BlueLM GitHub repository (open BlueLM model-family artifacts, technical-report pointer, and fine-tuning/code-facing materials)
  3. Lu et al., "BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices," CVPR 2025 open-access paper page
  4. vivo AI Lab, "BlueLM-2.5-3B Technical Report," arXiv:2507.05934 (compact dense multimodal model, data curation, reinforcement learning, and on-device MLLM framing)
  5. vivo China service page, "OriginOS 5" overview noting development based on BlueLM and AI integration across system layers
  6. vivo, "OriginOS 6" global product page (current OS-level intelligent surfaces, productivity tooling, and system-wide smart-suggestion context)
  7. Wikimedia Commons, "File:Vivo Global Headquarters DONGGUAN.jpg" (source page for the real photograph of vivo's Dongguan headquarters used as the article image)
  8. Pandaily, "Vivo Unveils BlueLM 3B, an On-Device Multimodal Model that Ranks No.1 among Sub-10B Models" (October 10, 2025; secondary launch summary and benchmark-claim context)