为加速骁龙安卓设备的AI工作负载处理谷歌推出了新的LiteRT加速器

发布时间：2025-12-02 15:52:04

谷歌针对LiteRT推出了一款全新的加速器，命名为高通AI引擎直通（QNN），其目的是增强配备骁龙8 SoC的高通安卓设备的AI性能表现。这款加速器能大幅提升性能，与CPU执行相比，速度最多可提升100倍；和GPU相比，速度也能提升10倍。

尽管现代安卓设备大多都配备了GPU硬件，但谷歌的软件工程师卢王、Wiyi Wanf与安德鲁·王认为，仅依赖GPU来处理AI任务或许会引发性能瓶颈。他们举例说明，像“在设备端运行计算量庞大的文本转图像生成模型，同时借助机器学习的分割技术处理实时相机画面”这类情况，即便是配置较高的移动GPU也可能难以应对。如此一来，很可能会造成用户体验出现卡顿以及掉帧的问题。

然而，许多移动设备现在配备了神经处理单元（NPUs），这些专门设计的AI加速器与GPU相比，可以显著加速AI工作负载，同时消耗更少的电力。

QNN是谷歌与高通密切合作开发的，用来替代之前的TFLite QNN代理。它通过集成广泛的SoC编译器和运行时，并通过简化的API提供给开发者，提供了统一和简化的工作流程。它支持90个LiteRT操作，目标是实现完整模型委托，这是实现最佳性能的关键因素。QNN还包括专门的内核和优化，进一步提升了像Gemma和FastLVM这样的LLM的性能。

谷歌对72个机器学习模型进行了QNN基准测试，其中64个成功实现了完整的NPU委托。结果显示，与CPU执行相比，性能提升高达100倍，与GPU相比提升10倍。

在高通最新的旗舰SoC，骁龙8 Elite Gen 5上，性能提升显著：超过56个模型在NPU上运行时间不到5毫秒，而在CPU上只有13个模型能达到这一速度。这解锁了许多之前无法实现的实时AI体验。

为加速骁龙安卓设备的AI工作负载处理谷歌推出了新的LiteRT加速器

谷歌工程师还开发了一个概念应用，利用了苹果FastVLM-0.5B视觉编码模型的优化版本。该应用几乎可以即时解释相机的实时场景。在骁龙8 Elite Gen 5 NPU上，它在1024×1024图像上的首次令牌时间（TTFT）仅为0.12秒，预填充速度超过11,000令牌/秒，解码速度超过100令牌/秒。苹果的模型通过int8权重量化和int16激活量化进行了优化。根据谷歌工程师的说法，这是解锁NPU最强大、高速int16内核的关键。

QNN仅适用于部分安卓硬件设备，具体来说主要是搭载骁龙8和骁龙8+ SoC的机型。若要开启使用，可前往NPU加速指南页面，并从GitHub上下载LiteRT。

上一篇： WeGame未完成任务自动下载的方法整理

下一篇： AI泡沫首次被戳破：GPU十年都难以存活

精选推荐