首页 > 自考资讯 > 自考知识

速度最快的存储芯片,世界上最快的电脑芯片

头条共创 2024-07-05

机器心脏报告

编辑:泽南、杜伟

生成式AI 推理的成本效益是GPU 的140 倍。

大模型时代,世界算力不足,而买铲子的公司英伟达的市值却在飙升。

最后,一家公司正在凭借自己的人工智能芯片进军市场。

今天凌晨,科技行业传来重要消息。美国芯片初创公司Etched推出了首款AI芯片搜狐。这使得更大型号的运行速度比Nvidia H100 快20 倍,比今年3 月发布的顶级B200 芯片快10 倍以上。

17fa663e242c4238b73a9db85fcb1c9d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=bsVUaIXtZsG5E6QLQHA8tViWpao%3D 运行Llama 70B的搜狐服务器每秒可以输出超过500,000个代币。这比H100 服务器(23,000 个令牌/秒)多20 倍,比B200 服务器(大约45,000 个令牌/秒)多10 倍。

60e53ef7aa1b42e1b354a35256b11fad~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=lSbCVTWIUANjv5PzM9WlcvDKLak%3D搜狐是全球首款专用于Transformer计算的芯片,历时两年打造。

作为一款ASIC(专用集成电路),搜狐通过变压器架构优化为芯片提供动力,包括支持Instagram 广告的DLRM、AlphaFold 2 等蛋白质折叠模型以及Stable 等大多数“传统”AI 模型。 Diffusion 2 和其他较旧的图像生成模型。它也无法运行CNN、RNN 或LSTM。

但另一方面,当谈到变形金刚时,搜狐是有史以来最快的芯片,而且差异是数量级的。当今所有主要的人工智能产品均由Transformers 提供支持,包括ChatGPT、Claude、Gemini 和Sora。

如今,由于摩尔定律放缓,GPU性能提升主要依靠增加芯片面积和功耗。无论是NVIDIA B200、AMD MI300X,还是Intel Gaudi 3,它们都采用了“二合一”的方式来提升性能和双倍功耗。

35666c707eb74bc8b15999d78dad79a0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=7fCGlLq%2B2vLV3jwYlMZaCZkw99Y%3D 从2022年到2025年,AI芯片性能实际上不会提高,只会变得更大。

不过,如果Transformer架构广泛应用于大型模型中,追求专业化或许是提升性能的一个好方向。

作为一个新兴领域,人工智能模型的架构在过去发生了巨大的变化。但从GPT-2 开始,几乎每个前沿模型都使用了Transformer,从OpenAI 的GPT 系列、Google 的PaLM、Facebook 的LLaMa 到特斯拉FSD 自动驾驶所需的模型。

6593b9b04a224797b809ffc68e6916d3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=u0Lq0JT232ok2KOfjPpbC0SIw6A%3DEtched 帮我算了一下。芯片项目成本在5000 万至1 亿美元之间,并且需要数年时间才能实现大规模生产。另一方面,当模型训练成本超过10亿美元、推理成本超过100亿美元时,专用芯片的使用是不可避免的。在这个产业规模下,1%的提升就可以带来硬件架构的更新。

速度比H100快20倍,FLOPS利用率超过90%。

作为全球首款变压器ASIC(专用集成电路)芯片,一台拥有8个Sohus的服务器相当于160个H100 GPU。也就是说,搜狐的运行速度将是H100的20倍以上。

具体来说,搜狐将通过专业化取得前所未有的业绩。集成八颗搜狐芯片的服务器每秒可处理500,000 个Llama 7B 代币。

与Llama 3 70B 相比的FP8 精度基准显示没有稀疏性、8 倍模型并行性以及输入长度2048 或输出长度128。

另外,对于Llama、Stable Diffusion 3,搜狐只支持transformer inference。搜狐支持Google、Meta、Microsoft、OpenAI、Anthropic 等当前模型,并适应未来的模型调整。

由于搜狐只能运行一种算法,因此它删除了很多控制流逻辑并允许更多的计算块。结果,搜狐实现了超过90% 的FLOPS 利用率,而使用TRT-LLM 的GPU 利用率约为30%。

为什么搜狐能输出更多的FLOPS?

NVIDIA H200 支持989 TFLOPS 的FP16/BF16 计算能力,且不存在稀疏性。这是当今最先进的芯片,当它于2025 年推出时,GB200 将提供25% 的计算能力,支持1250 TFLOPS。

由于GPU 在很大程度上是可编程的,因此它们可以通过专注于变压器来处理更多计算。这可以从第一性原理得到证明。

构建单个FP16/BF16/FP8 乘法累加电路需要10,000 个晶体管,这是所有矩阵数学的基础。 H100 SXM 具有528 个张量核心,每个核心有4 8 16 FMA 电路。相乘可知,H100 张量核心使用了27 亿个晶体管。

然而,H100有800亿个晶体管。这意味着H100 GPU上只有3.3%的晶体管用于矩阵乘法。这是英伟达和其他芯片制造商经过深思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),没有比这更好的了。

通过仅运行变压器,Etched 允许搜狐芯片输出更多FLOPS,而不会影响准确性或稀疏性。

内存带宽也不是瓶颈

事实上,像Llama 3 这样的车型,情况并非如此。

以NVIDIA 和AMD 的标准基准为例:2048 个输入令牌和128 个输出令牌。大多数AI产品都有很长的提示,比如最新的Claude聊天机器人,系统提示中有超过1000个token。

在搜狐中,推理是分批进行的。所有模型权重必须每批次加载一次,并为批次中的每个标记重复使用。一般来说,LLM 输入是计算密集型的,LLM 输出是内存密集型的。在连续批次中组合输入和输出令牌会使工作负载计算密集。

下面是LLM连续批处理的示例。这里,执行四个输入令牌和四个输出令牌的序列。每种颜色代表不同的序列。

a83f0dc8df2540338ce633592b7718d0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=4pGIJj7WB7NS8yY6ePaTPJ%2BD9qU%3D 可以扩展相同的技巧来运行具有2048 个输入令牌和128 个输出令牌的Llama 3 70B。每个批次包含一个序列的2048 个输入标记和127 个不同序列的127 个输出标记。

如果这样做,每个批次将需要大约(2048 + 127) 70B 参数 每个参数2 字节=304 TFLOP,但您只需要加载70B 参数 每个参数2 字节=140 GB 模型总重量约为127 64 8 128 (2048 + 127) 2 2=72GB KV 缓存权重。这需要比内存带宽更多的计算。 H200 需要6.8 PFLOPS 计算才能最大化内存带宽。这是在100% 利用率的情况下;如果仅使用30%,则需要三倍的内存。

凭借更强的计算能力和非常高的利用率,搜狐可以运行巨大的吞吐量而不会出现内存带宽瓶颈。

软件如何工作

GPU 和TPU 是软件噩梦。处理任意CUDA 和PyTorch 代码需要非常复杂的编译器。第三方人工智能芯片(AMD、英特尔、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。

搜狐只运行变形金刚,所以你只需要编写变形金刚的软件即可。

大多数运行开源或内部模型的公司都使用Transformer 特定的推理库,例如TensorRT-LLM、vLLM 或HuggingFace 的TGI。

这些框架非常严格,虽然它们允许对模型进行超参数调整,但它们并不真正支持更改底层模型代码。但没关系。所有变压器模型(包括文本/图像/视频模型)都非常相似,因此您真正需要做的就是调整超参数。

95% 的人工智能公司都这样做,但一些最大的人工智能实验室采取定制方法。他们的工程师团队手动调整GPU 核心以提高利用率,并对每个Tensor Core 进行逆向工程以最大限度地减少寄存器延迟。

Etched 消除了逆向工程的需要,并使软件(从驱动程序到内核再到服务堆栈)开源。如果您想实现自定义转换器层,您可以使用内核向导来实现。

创业团队:由哈佛退学者领衔

Etched首席执行官Gavin Uberti告诉记者:“如果Transformer在未来不再成为主流,我们就会消亡。但如果它继续存在,我们将成为历史上最大的玩家。它将成为一家公司, “ 他说。

Etched 是搜狐芯片的生产商,位于加利福尼亚州库比蒂诺。该公司成立仅两年,目前团队仅有35人。创始人是Gavin Uberti(前OctoML 和前Xnor),两人是哈佛辍学生。与AI 员工一起工作的Chris Zhu 和Robert Wachen 一直与赛普拉斯半导体前首席技术官Mark Ross 合作,专门为大规模AI 模型构建芯片。

5df2addff6964d4780c0af034721855e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720779476&x-signature=xNNtUEt85Ewy%2BpfxELwi%2FPSzwwM%3D 随着搜狐芯片的发布,Etched还宣布完成由Primary Venture Partners和Positive Sum Ventures共同领投的1.2亿美元A轮融资。 Etched 的总融资额为1.2536 亿美元,本轮主要投资者包括Peter Thiel、GitHub 首席执行官Thomas Dohmke、Cruise 联合创始人Kyle Vogt 和Quora 联合创始人Charlie Cheever。

但对于控制着超过80%的AI芯片市场份额的英伟达来说,1.2亿美元只是半天的收入。

Etched 运营总监Robert Wachen 表示:“我们如此兴奋的原因、我们辍学的原因以及我们组建团队从事芯片项目的原因是因为—— 是我们所做的最重要的事情。”马苏。 “整个技术的未来取决于计算基础设施实现大规模规模的能力。”

Uberti 声称,到目前为止,匿名客户已经预订了“数千万美元”的硬件,搜狐计划于今年第三季度推出。

未来,正如Uberti提到的,视频生成、音频生成、体现智能等技术实际上只能在搜狐这样的芯片上实现吗?

参考内容:

https://www.etched.com/payment-etched

https://twitter.com/etching/status/1805625693113663834

https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html

https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/

版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。

猜你喜欢