在 AI 的喧嚣战场中,模型的 “军备竞赛” 正酣,巨头们纷纷挥舞着参数规模与算力的大旗,试图在这场角逐中占得先机。而美团,这位在生活服务领域深耕多年的 “老将”,却带着一股别样的气息,悄然踏入大模型的战局,以一种令人意想不到的方式 —— 借鉴外卖订单调度的智慧,为大模型的算力运用带来全新思路,其最新推出的 LongCat – Flash 模型,犹如一颗投入湖面的石子,激起层层涟漪。

想象一下,在城市的夜晚,你饥肠辘辘,点下一份外卖。瞬间,系统便精准调度,从众多骑手中筛选出最合适的一位,让他顺路接单,高效地将美食送到你手中。美团正将这种在生活服务中打磨得炉火纯青的 “派单逻辑”,巧妙移植到 AI 世界。在 LongCat – Flash 模型里,算力不再是毫无章法地堆砌,而是如同训练有素的骑手,被精准调配:复杂问题匹配更多 “高手”,简单任务则由 “近程骑手” 迅速解决,力求每一份算力都得到最合理的利用,杜绝丝毫浪费。
从技术革新的角度来看,LongCat – Flash 的独特之处并非在于其拥有多么庞大的参数总量(尽管其总参数规模达 5600 亿),而是它具备 “精打细算” 的算力分配能力。在实际推理过程中,每个 token 仅需调用一小部分参数,约 186 亿至 313 亿。这就好比一个庞大的骑手团队,送单时并非全员出动,而是依据订单的复杂程度,派遣最合适的人手,既确保服务覆盖全面,又避免资源的闲置与浪费。模型中的 “零计算专家” 模块,堪称应对简单任务的 “捷径”。当遇到简单 token 时,就如同外卖小哥顺路捎带一瓶楼下便利店的水,无需复杂调度,直接放行,将宝贵的算力资源留给真正棘手的任务,实现 “按需分配”,让模型的 “派单” 更加合理高效。
另一项关键创新 ——ScMoE(Shortcut – connected MoE),则进一步提升了算力的运用效率。传统模型处理任务如同骑手等待所有订单派完才出发送餐,而 ScMoE 却能让骑手在送餐途中,系统便同步规划下一单,实现算力使用与通信的并行操作,大大缩短任务处理周期,提升整体效率。在测试数据中,采用 ScMoE 的模型与未采用的相比,损失几乎相同,质量不受影响,但在吞吐率和推理速度上却有显著提升,充分彰显了这一技术的优势。
除了精妙的算法设计,美团在工程实现上也下足功夫,确保模型稳定运行。LongCat – Flash 的训练方式如同逐步拓展骑手网络:先在小范围内试点运行,完善调度规则与路线规划,再稳步推广至更大区域,避免因盲目扩张而导致系统混乱。为防止系统崩溃,模型设置了 “三重保障”:Router 稳定,防止订单过度集中在某条线路;激活稳定,避免个别骑手接单过载;优化器稳定,确保整体调度节奏合理,可持续运行。凭借这套稳健的机制,LongCat – Flash 在 30 天内顺利完成 20 万亿 tokens 的训练任务,展现出强大的工程实践能力。
从性能表现来看,LongCat – Flash 在各大基准测试中成绩斐然。在通用任务测试中,如 MMLU(89.71)和 CEval(90.44),其表现与国际一线模型相当,虽在 CEval 分数上略低于 Kimi – K2(91.26),但仍领先多数基线模型,展现出良好的中文理解能力。在复杂推理任务中,GPQA – diamond(73.23)测试结果与同类模型相近,在 DROP(79.06)、ZebraLogic(89.30)、GraphWalks – 128k(51.05)等测试中也稳定处于中上游水平。数学能力方面,在 MATH500(96.40)和 AIME24(70.42)测试中与 Kimi – K2、DeepSeek 差距不大,维持在较高水平,BeyondAIME(43.00)测试中虽有下滑,但仍优于多数模型。编程任务上,在 HumanEval +(88.41)、MBPP +(79.63)等 benchmark 测试中表现稳定,略逊于 Kimi – K2(93.29、79.87),但胜过 Gemini2.5 Flash、Claude Sonnet 等竞争对手。
实际体验中,LongCat – Flash 的速度优势尤为突出。当测试写一个 Python 函数判断数字是否为质数并给出测试样例时,与 kimi 1.5 相比,LongCat – Flash 网页端几乎不假思索,内容一行行飞速输出,而 kimi 1.5 则需短暂思考后才缓缓输出内容。在核心代码部分,二者质量相当,LongCat – Flash 却能做到又快又好。
美团推出 LongCat – Flash,无疑是在大模型市场投下一枚 “变量炸弹”。当众多 AI 巨头围绕模型规模、参数精度等传统维度激烈竞争时,美团另辟蹊径,凭借在生活服务领域积累的调度经验,将复杂的科技问题转化为 “调度骑手” 的逻辑,以算力调度优化与成本控制为切入点,试图在大模型市场中闯出一片新天地。尽管 LongCat – Flash 的速度与价格优势,短期内或许难以彻底改写行业格局,毕竟大模型市场中,生态与用户习惯的粘性根深蒂固,但它已然释放出一个强烈信号:美团正以自己最擅长的方式,试图搅动大模型市场的现有格局。回顾十年前,美团凭借补贴策略缔造外卖帝国;十年后的今天,它能否借助这场 “价格战” 与技术创新,成功跻身大模型核心玩家之列?答案尚未揭晓,但可以确定的是,美团已勇敢地递出第一张筹码,这场大模型战局,注定会因美团的加入而变得更加精彩。
发表回复