把时间锚定在 2026-04-18 UTC,理解美团的 AI 进展,较稳的入口,落在它把 AI 压进自身本地生活机器的哪些环节。美团 3 月 26 日 的全年业绩披露写得很直白:2025 年研发投入同比增长 23% 至 260 亿元,并且持续推动 AI 技术在物理世界的应用落地。[1] 把这句话与近几个月的技术稿和业务稿连在一起,一条更完整的公司轮廓就浮出来了:美团正在搭一条行动闭环,其中多模态模型、商家工具、平台信任治理、App 表面自动化,以及骑手硬件,彼此之间持续咬合,在同一套本地生活操作系统里互相喂数、互相放大。[1][2][3][4][5][6]
这比“美团也有一个强模型”更窄,也更有分量。放在 ai-china 语境里,能够展示一个模型卡、一个助手演示、一个漂亮首页的公司已经很多;能够把模型能力接到商家经营、交易信任、真实 App 状态变化、以及城市配送工具上的公司要少得多。顺着美团自己的公开材料往下读,较清楚的判断是:它在努力把 AI 做成本地生活的基础设施,让聊天入口只作为更大系统中的一层存在。[1][2][3][4][5][6]
图片说明:题图采用 Wikimedia Commons 上一张拍于青岛街头的真实照片,画面里是一位正在路上工作的美团骑手。它适合本文,因为整篇文章的中心落在物理世界里的执行链条:商家、订单、界面、评价与配送,最后都要回到街道上。[7]
模型层的重要性,在于它被放进了服务工作里
模型侧最值得看的信号,是 2026-04-02 发布的 LongCat-Next。这篇技术文把它定义为一套覆盖视觉理解、图像生成、音频与智能体能力的原生多模态系统,依靠统一的离散 token 框架来处理理解与生成。[2] 它更有意思的地方,落在公开结果已经明显朝着美团自身业务环境倾斜。按文中披露的数据,LongCat-Next 在 τ²-Bench 的零售场景取得 73.68,明显高于文中拿来对照的 Qwen 数值,同时在 SWE-Bench 和若干文档、多模态任务里也给出了可观成绩。[2]
这组组合很说明问题。它显示出,美团希望 LongCat 跨过文本、图像、语音、代码与工具调用,进入本地生活平台真正复杂的工作场景:商家后台、商品图、客服交互、运营工具,以及消费者 App 内部的状态流转。[2] 也正因此,LongCat-Next 更像一层面向服务工作的模型层,榜单只是它公开呈现出来的一个侧面。
3 月 26 日 的业绩稿从公司层又把这个判断补了一遍。管理层把技术投入的落点写成“物理世界的应用”,这类表述只有在模型能力要与真实运营表面捆在一起时才成立。[1]
商家工具说明,真正可兑现的智能要落在经营动作里
到了商家侧,整篇侧写开始变得更具体。美团 2026-02-06 的商家生态文章写到,平台已经向行业商家免费开放搭载自研大模型 LongCat 的 AI 外卖经营工具,覆盖赛道分析、选址、菜品研发等环节。[3] 同一篇文章还给出了更像分发信号的数据:已有 670 余个餐饮品牌、4000 余家社区小店参与体验,累计生成 32 万份报告,选址准确率达到 87%。[3]
更关键的变化发生在试用期之外。美团写到,堂食经营 AI 工具 “智能掌柜” 已在 2025 年 11 月 面向全部到餐合作商家全量上线;每周有近 10 万商家主动与它互动;累计帮助 52.7 万个商家解决 429.6 万个经营问题。[3] 这些数字来自公司披露,更适合作为产品分发与部署深度的证据;若把它们直接放进中立审计意义上的市场份额口径里理解,信息会明显走样。即便如此,它依然清楚地告诉我们:美团希望 AI 的价值先沉到商家日常经营里,再向消费者侧体验继续传导。
这正是很多 ai-china 讨论里最容易漏掉的一点。美团可以把智能压进商家获客、店铺运营、菜单决策、营销策划与本地供给组织这些更靠近现金流的环节里。平台一旦本来就处在用户与商家之间,内部 Copilot 很容易从一个功能,长成一块控制表面。[3]
信任治理与界面状态控制,同样是护城河的一部分
更难复制的部分,在于这些能力依赖美团自己封闭又高频的反馈回路。2026-03-24,大众点评发布 2025 年评价透明度报告,写到平台全年累计收到近 4.5 亿条用户评价,覆盖境内外近 902.9 万家商户、超过 400 种商户类型,并且引入 AI 智能体辅助人工审核,全年分层处置 1161 万条 AIGC 评价。[4] 这件事的重要性在于,本地生活平台的生命线,一端在推荐能力,另一端也在评价与排序层的可信度。能帮助商家和用户的模型当然有价值;能同时守住推荐与评价底座的模型,替代难度要高得多。[4]
KuiTest 又把另一层控制点摆了出来。2026-01-13 的技术文介绍了一套基于大模型通识的 UI 交互遍历测试系统,覆盖美团内部 10 条业务线。按文中实验结果,表现最好的两步分解方案拿到了 86% 平均准确率 与 85% 召回率。[5] 这表面上像一篇测试工程文章,实际上触到的是平台 AI 的更深边界:本地生活超级 App 既是文本问题,也是由按钮、图标、页面跳转、确认弹窗和各种边缘状态组成的状态机。模型与内部工具若能持续学会这些状态如何变化,“智能体能力”就会从抽象名词转成对自家服务表面的真正理解。[5]
把评价治理与 KuiTest 放在一起看,美团的护城河就更清晰了。它一边在训练模型去回答与生成,一边也在训练系统去识别真假、理解状态、管理反馈,并在高频业务中不断回收这些经验。[4][5]
骑手硬件把闭环继续收回到街道上
多数公共 AI 厂商手里缺少这一层:配送网络里的劳动硬件。美团 2025-08-15 的智能头盔工程实践文写到,这款头盔已经成为骑手配送过程中的核心生产工具,并在实际应用里带来了更高的效率与更好的安全指标。[6] 真正值得记住的是文末那句路线图:下一代头盔会进一步成为美团自研多模态大模型的重要入口与数据采集平台。[6]
这一句,几乎把整篇文章压缩成了一个句子。模型演进、现场硬件、骑手工作流、环境感知与城市执行,全被收进同一条链里。[6] 一家公司若能把 AI 同时放进商家后台、评价治理、界面测试与骑手头盔,它的工作范围就会越过助手形态,进入物理世界里的学习回路。
接下来更该看什么
真正值得继续盯的,是美团如何把 模型层、商家经营层、平台信任层、App 状态层 与 骑手执行层 继续压得更紧。[1][2][3][4][5][6]
这套结构一旦继续收束,美团的 AI 优势就会呈现出一种与 API 型实验室不同的样子:它更像本地生活场景里的复利。更好的商家建议带来更扎实的供给,更强的评价治理守住信任,更懂界面状态的系统提高自动化的可靠度,贴近一线的骑手硬件又把执行反馈重新送回模型与平台。比起一层聊天皮肤,这是一套更难照搬的系统。
来源
- 美团,《美团发布2025年Q4及全年财报:全年营收3649亿元,研发投入增长23%至260亿元》(2026 年 3 月 26 日;研发投入、物理世界 AI 应用落地,以及公司层面的整体战略表述)。
- 美团技术团队,《美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语》(2026 年 4 月 2 日;LongCat-Next 架构,以及零售工具调用、SWE-Bench 与多模态任务的文中披露结果)。
- 美团,《2025年,商家提的问题,我们都改进了哪些?》(2026 年 2 月 6 日;LongCat 商家工具、32 万份报告、87% 选址准确率,以及“智能掌柜”的全量上线与使用数据)。
- 美团,《大众点评披露AIGC评价治理数据:2025年处置1161万条,守护AI时代稀缺“真实”》(2026 年 3 月 24 日;4.5 亿条评价、902.9 万家商户,以及 AI 智能体辅助审核的治理数据)。
- 美团技术团队,《KuiTest:基于大模型通识的 UI 交互遍历测试》(2026 年 1 月 13 日;覆盖 10 条业务线,以及文中披露的 86% 平均准确率与 85% 召回率)。
- 美团技术团队,《美团智能头盔研发实践系列02:软件功能篇》(2025 年 8 月 15 日;当前骑手工具效果,以及下一代头盔作为多模态模型入口与数据采集平台的路线图)。
- Wikimedia Commons,"File:Food delivery driver in Qingdao.jpg"(本文题图来源页)。