← 返回首页

Perceptron Mk1:视频分析AI的价格屠夫,80%成本背后是什么?

作者:小学子 | 日期:2026年5月15日

一条搅动整个AI行业的价格鲶鱼

2026年5月14日,一家成立仅两年的创业公司 Perceptron Inc. 发布了一款视频分析推理模型 Mk1(Mark One),定价$0.15/M输入tokens、$1.50/M输出tokens——比 Anthropic 的 Claude Sonnet 4.5、OpenAI 的 GPT-5、Google 的 Gemini 3.1 Pro 便宜 80%~90%

这个数字是什么概念?做个直观对比:

每百万Tokens成本对比
$0.15 vs $2.00+

Perceptron Mk1 vs 行业平均水准

这不只是价格战——这是把高端视频AI从"实验室奢侈品"变成"工业级日用品"的关键一跳。

性能:便宜没好货?

通常低价意味着能力妥协。但 Mk1 在各项基准测试中展现了令人意外的成绩:

基准测试 Perceptron Mk1 对比最强竞品
EmbSpatialBench(空间推理) 85.1 Google Robotics-ER 1.5: 78.4
RefSpatialBench(指代表达理解) 72.4 GPT-5m: 9.0 | Claude Sonnet 4.5: 2.2
EgoSchema Hard Subset(视频理解) 41.4 Gemini 3.1 Flash-Lite: 25.0
VSI-Bench(时序视觉推理) 88.5 全场最高

尤其是 RefSpatialBench 这个指标——72.4 分对 2.2 分,这是数量级上的碾压。意味着 Mk1 能精准理解"画面中第三个人手里的杯子"这类细粒度指代,而竞品几乎完全失灵。

核心技术:为什么要做"物理推理"?

Perceptron 提出了一个概念——Physical Reasoning(物理推理)。

传统视觉语言模型(VLM)把视频当作一串静态图片来处理,丢掉了时间维度的连续性。Mk1 的架构从零开始设计,专门解决两个问题:

时序连续性(Temporal Continuity)

可处理最高 2 FPS 的原生视频流,在 32K token 的上下文窗口内追踪物体同一性——即使物体被遮挡后再次出现,模型依然知道它是同一个物体。这对机器人视觉和监控场景至关重要。

物理定律理解

模型能理解因果和物理规律。比如分析篮球投篮是否在蜂鸣器响起前完成——需要联合推理球的空中位置和计时钟读数,这不是单纯模式识别能做到的。

"我们正在进入一个AI必须理解因果、物体动力学和物理定律的时代,就像它们曾经熟练处理语法一样。"
—— Perceptron 官方博客

创始人背景:从 Meta FAIR 到物理AI

Perceptron 由 Armen Aghajanyan 和 Akshat Shrivastava 联合创立,两人在 Meta 的 Facebook AI Research(FAIR)实验室共事多年。

他们的技术谱系可追溯至:

双轨策略:闭源API + 开源权重

Perceptron 采取了独特的双轨授权模式:

产品线 类型 定价 定位
Perceptron Mk1 闭源 API $0.15/M输入 / $1.50/M输出 企业级性能与安全
Isaac 0.2 开源权重(HuggingFace) 免费(商用需许可证) 边缘/低延迟部署,TTFT <200ms

Isaac 系列面向需要本地部署或实时性要求极高的场景,比如工厂流水线上的实时缺陷检测。

实际应用场景

为什么价格能压到这么低?

Perceptron 没有透露具体技术细节,但从公开信息可以推测几个关键因素:

1. 专为视频设计的架构,而非复用通用多模态

大多数大厂的视频能力是建立在语言模型基础上的"附加层",而 Perceptron 从第一天就围绕视频设计——避免了大量冗余计算。

2. 聚焦物理AI这个细分赛道

不做通用助手、不做代码生成、不做创意写作,专注空间推理和时序理解,可以用更小的参数规模达到甚至超越通用模型在特定任务上的表现。

3. 高效的token利用

32K context 处理 2 FPS 视频意味着能在有限窗口内覆盖较长时段,同时保持低成本。

行业影响:效率 Frontier 重新定义

Perceptron 在博客中提出了一个"效率 Frontier"概念——将基准测试均分与每百万token成本进行联合可视化。

在这个图表上,Mk1 位于一个前所未有的位置:匹配 GPT-5、Gemini 3.1 Pro 的分数,但成本接近 Lite/Flash 版本

这意味着 AI 基础设施的性价比曲线正在被改写。过去企业为高端视频分析付出的溢价空间,将面临压缩。

怎么看这件事?

Perceptron Mk1 的出现揭示了一个趋势:专用模型与通用模型之间的成本效益比正在逆转

通用大模型追求的是全面能力,但很多工业场景只需要"精准理解视频中发生了什么"这一件事做得好。在这个维度上专用模型不仅更好,而且更便宜。

对于 AI 行业来说,这是一个值得警惕的信号——对于正在烧钱做通用多模态的创业公司而言,Perceptron 证明了垂直赛道的价格战可以有多凶猛。

对于企业采购者而言,这是好消息:视频AI的工业化部署终于有了经济上的可行性。

参考链接

📚 小学子,每日为你梳理AI领域的重要进展。关注公众号,持续获取深度解读。