前沿分享丨手机流畅运行470亿大模型：上交大发布PowerInfer2

小条 2024-07-05

转载自量子比特

梦晨发自凹非寺量子位 | 公众号 QbitAI

苹果一出手，大型机型向手机等移动设备的拓展不可避免地成为业界关注的焦点。

但目前移动设备上运行的模型规模较小（苹果为3B，谷歌为2B），且消耗大量内存，严重限制了应用场景。

就连苹果现在也不得不与OpenAI 合作，通过将云GPT-4o 大型模型纳入其操作系统来提供更强大的服务。

结果，苹果的混合解决方案引起了有关数据隐私的大量讨论和争议，甚至连马斯克先生也不再讨论了。

如果苹果在操作系统层面集成OpenAI，我的公司将被禁止使用苹果设备。这是不可接受的安全违规行为。

742e6bcf63034433b2ebd264cf4e1450~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=yffc9cnOcvMfds4np47bcUudDCg%3D 当在设备端本地部署大型模型的解决方案不仅能让手机用户享受AI的强大智能，还能保护自己的隐私时，苹果为什么会选择与OpenAI合作呢？大规模模型？云中的模型是否存在侵犯隐私的风险？

您的手机内存不够大。根据大模型的缩放定律，模型参数越大，对应的特征越强。这意味着具有更强大功能的模型将需要更多内存。手机没有足够的计算能力。即使模型通过量化等方式勉强集成到手机中，推理速度也很慢，适合的应用场景也很有限。为了解决上述挑战，上海交通大学IPADS实验室推出了手机大规模模型推理引擎PowerInfer-2.0（目前论文发表在arxiv上）。

b862a938403f45f788a73e675c51611c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=dxk1PLaQ3I1eqsthDM5%2F1zPia78%3D PowerInfer-2.0 可在内存有限的智能手机上实现快速推理，使Mixtral 47B 模型在手机上达到11 个令牌/秒的速度。

与流行的开源推理框架llama.cpp相比，PowerInfer-2.0实现了平均25倍的推理加速，最高可达29倍。

，期间01:16

为了充分发挥PowerInfer-2.0框架的潜力，上海交通大学团队还提出了支持其的大规模模型优化技术Turbo Sparse，该技术最近上传到了arxiv，受到了业界的关注。收集。

16369512cad34f8199291c1126040366~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=rdZuI4rX%2BuDfW5jvKrHKec6lDJk%3D 去年年底，上海交通大学的团队提出了PowerInfer-1.0，这是一个针对PC场景的快速推理框架，可以在4090等消费级显卡硬件上实现推理加速。也值得一提。涨幅高达llama.cpp 的11 倍，连续3 天位居GitHub 趋势榜榜首，5 天获得5,000 个GitHub star，目前达到7.1,000 个star。

817d106203814d82805678d254222cd5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=KrfXJeyi4a6z0xTBpcoYDfWrBYU%3D 与PC相比，手机的内存和计算能力有限。那么PowerInfer-2.0如何加速手机场景的大规模模型推理呢？

动态神经元缓存

首先，为了解决手机内存(DRAM) 耗尽的问题，PowerInfer-2.0 利用了稀疏模型推理的强大功能。这意味着每次只需要激活少量神经元。 “稀疏激活。”即使未激活的神经元不参与AI模型的推理计算，也不会影响模型的输出质量。

稀疏激活为减少模型推理的内存使用创造了新的机会。为了充分利用稀疏激活的特性，PowerInfer-2.0将整个神经网络的神经元分为冷型和热型，并基于LRU策略在内存中维护一个神经元缓冲池。

最近被频繁激活的“热神经元”被放入运行内存中，而“冷神经元”仅在预测激活时才被拉入内存，从而显着减少内存使用。

7411df64819b4cea9991da2d2beea731~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=WlH2QUrntQNBV8j7ycUh88bLefg%3D 事实上，冷热神经元的分类是继承自PowerInfer-1.0中现有的方法。

85e252202c4a42d89584f403e7912e37~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=iG69KRrVMiK%2FG%2FrItj%2B%2Bl6s8Fwk%3D 对于像Mistral 7B这样可以安装在手机执行内存中的模型，PowerInfer-2.0可以节省40%的内存，并且解码速度可以达到或高于llama.cpp和MLC-LLM的水平。

aa5e26820ae1460d9151395638215a41~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=5UKa6O36olvzQI2ABkyJo1RbGNw%3D PowerInfer-2.0是一种模型系统协同设计解决方案，需要模型中可预测的稀疏合作。

如何以低成本的方式让模型适应PowerInfer-2.0框架也是一大挑战。

以神经元簇为粒度的异构计算

传统简单ReLU的稀疏性对模型的原始功能有很大影响。

为了克服这个问题，上海交通大学IPADS与清华大学和上海人工智能研究院合作，显着提高了模型的稀疏性，并开发了一种保持模型原有功能的低成本解决方案。稀疏化方法。

57b103b7bf7646d5a7c3f978aa17a7b6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=w%2FB78Qh5llr9bXzW4CY%2FUqHnFfk%3D 首先详细分析了模型稀疏化问题。

只是将ReLU 引入像LLaMA 这样的模型中可以引入一些稀疏性，但稀疏性仍然是有限的。稀疏化过程的问题在于训练语料和训练令牌不足，从而降低了模型的准确性。为了提高模型的稀疏性，本文在ReLU的基础上提出了dReLU激活函数，通过替换原来的激活函数并继续预训练来增加模型的稀疏性。

用dReLU 替换SwiGLU 直观地增加了输出值中零元素的比例。另一方面，我们可以更有效地复用稀疏过程中训练原始模型完成的门和上矩阵权重。

e27c69069f374531856f26fbeedb0855~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=YJe9RIpiqThz7oh8A4CU%2FGN%2B4js%3D e46f145af7d144558ec5d1e9683cb3ed~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=WyRjI%2FRbLbJsaN6LfeH6HGuX1x0%3D 为了克服模型退化问题，团队收集了多样化的连续训练语料库，其中包括网页、代码和数学数据集。高质量且多样化的训练数据有助于保持和提高稀疏化后的模型性能。

最后，团队训练了两个TurboSparse 大模型（8x7B 和7B 大模型）进行验证。得益于高质量的持续训练语料，TurboSparse系列模型的准确率甚至可以超过原始模型（详见表6）。

6c82fe7901cd4d10b8b59c44c8ac17c5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=BKV7ITlfvcTx40B72uc0p3kMXHY%3D 对稀疏性的影响也非常重要。与原始Mixtral 模型需要启用13B 个参数相比，TurboSparse-Mixtral 仅需要启用4.3B 个参数，且启用的参数数量是原始模型的三分之一。

ba8c0409defb47ffa695ae22ebb10a53~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=C4NuxeQ3vGxzQOH4vRGAX8fFSLc%3D 关于稀疏化过程的成本，TurboSparse论文介绍，模型在转换过程中需要在150B个token上继续训练，与训练前相比（假设3T个token不到5%），表明其成本较低。非常低。

低成本高质量地大幅提升模型稀疏性

上海交通大学团队的工作从推理框架和改进模型两个角度入手，实现了手机等资源有限场景下大规模语言模型的快速推理。

此外，该解决方案的潜力不仅限于手机，未来也有望应用于车载设备和智能家居。

最后，正式介绍一下团队。上海交通大学并行与分布式系统研究所（IPADS）由陈海波教授领导，现有教师13人，学生100余人。

IPADS过去10年一直从事计算机系统研究，在久负盛名的CSRankings排行榜上，其操作系统排名位居全球第二，仅次于麻省理工学院。东大也是唯一进入前十名的亚洲大学。

d6bda34f37cc4ded826353d34560eb7b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=Rnn97MOfiqG6HAY49R93telJOuw%3D 目前，上海交通大学IPADS在Huggingface中发布了稀疏模型权重。未来，我们相信，如果PowerInfer-2.0能够与手机厂商更加紧密地合作，就能加速相关技术从实验室到各种现实场景的过渡。

PowerInfer-2 论文：https://arxiv.org/abs/2406.06282

TurboSparse 论文：https://arxiv.org/abs/2406.05955

模型权重：https://huggingface.co/PowerInfer/TurboSparse-Mixtral

- 就这样-

28a7c723d0cf4191b6a985fc8d6aad1d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720769791&x-signature=I9F3BqWPO1VoMRKl7Xio6qyQR1E%3D

前沿分享丨手机流畅运行470亿大模型：上交大发布PowerInfer2

梦晨发自凹非寺量子位 | 公众号 QbitAI

动态神经元缓存

以神经元簇为粒度的异构计算

低成本高质量地大幅提升模型稀疏性

猜你喜欢