6 月27 日消息,芯片初创公司Etched 近日宣布推出旗下Transformer 架构专用ASIC 芯片“搜狐”,打破了NVIDIA 最新AI 大语言模型(LLM)B200 的推理性能。 GPU和AI性能达到H100的20倍。这也意味着搜狐芯片大幅降低了现有AI数据中心的采购和安装成本。
Etched目前直接与台积电4nm工艺合作进行搜狐芯片生产,并已从顶级供应商获得充足的HBM和服务器供货,以在第一年快速扩大产能。一些早期客户已经从Etched 订购了价值数千万美元的硬件。
1. 比NVIDIA H100 高出20 倍以上的AI 性能是如何实现的?
据Etched介绍,搜狐是全球首款基于Transformer架构的ASIC。
根据Etched 披露的数据,配备8 个搜狐芯片的服务器每秒可以处理超过50 万个Llama 70B 代币。这比配备8 个NVIDIA H100 GPU 加速卡的服务器高出20 倍。同样,它比配备8 个Nvidia 最新B200 GPU 加速卡的服务器要好得多,大约是10 倍。
基准测试针对Llama-3 70B,FP8 精度:无稀疏性,8 倍模型并行度,输入长度2048/输出长度128。使用TensorRT-LLM 0.10.08(最新版本)计算的数字8xH100、8xGB200 是估计值。
据Etched 称,搜狐比Nvidia 最新一代Blackwell 架构B200 GPU 快一个数量级,而且更便宜。您可以帮助您的客户构建GPU 无法实现的产品。
不过,我在这里想强调的是,搜狐的AI性能优于Nvidia GPU,但有前提条件。搜狐基于Transformer架构专门为大模型定制,因此仅支持大模型加速。
“通过将Transformer 架构集成到我们的芯片中,我们可以集成大多数传统的人工智能技术,包括支持Instagram 广告的DLRM、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等旧图像模型以及CNN、RNN 或LSTM 等模型, “但对于基于Transformer 架构的大型模型,搜狐是有史以来最快的AI 芯片,没有其他芯片可以与之匹敌。”Etched 表示。
1. 提高计算利用率
由于搜狐仅运行一种类型的算法(Transformer),因此您可以删除大部分控制流逻辑并包含更多数学计算逻辑。结果,搜狐的FLOPS 利用率超过90%(相比之下,采用TRT-LLM 的GPU 上的FLOPS 利用率约为30%)。
NVIDIA H200拥有989 TFLOPS的FP16/BF16计算能力(非稀疏),这绝对是非常强大的,甚至比谷歌新推出的Trillium芯片还要好。然而,Nvidia 发布的B200 的计算能力仅提高了25%(每芯片1,250 TFLOPS)。这是因为GPU 的很大一部分空间专用于可编程性,因此专注于变压器可以让芯片执行更多计算。
例如,需要10,000 个晶体管来构建单个FP16/BF16/FP8 乘法累加电路,这是所有矩阵数学的基础。 NVIDIA H100 SXM有528个张量核心,每个核心有4816FMA电路。这意味着Nvidia H100 拥有27 亿个专用于Tensor 核心的晶体管。但H100有800亿个晶体管。这意味着H100 GPU上只有3.3%的晶体管用于矩阵乘法。
这是Nvidia 和其他灵活AI 芯片经过深思熟虑的设计决策。如果要支持所有类型的模型(CNN、LSTM、SSM 等),没有更好的设计了。
Etched 的搜狐芯片仅支持运行Transformer 架构的大规模AI 模型,允许在芯片上安装更多FLOPS,而不会影响准确性或稀疏性。
2、提高内存带宽利用率
一般来说,AI推理受到内存带宽的限制,计算限制相对较小。但实际上,像Llama-3 这样的现代模型需要更高的计算能力来提高带宽利用率。
使用NVIDIA 和AMD 的标准基准:2048 个输入标记和128 个输出标记。大多数人工智能产品的提示都比完成所需的时间长得多(即使是新的克劳德聊天应用程序也有超过1,000 个系统提示)。
在GPU和搜狐上,推理是批量进行的。每批次加载一次所有模型权重,并为批次中的每个标记重复使用它们。通常,大型语言模型的输入是计算密集型的,而输出是内存密集型的。输入和输出标记以及连续批处理的结合使得工作量计算密集。
下面是一个大型语言模型的连续批处理的示例。在这里,我们运行一个具有四个输入标记和四个输出标记的序列。每种颜色都有不同的顺序。
同样的技巧可以扩展到运行具有2048 个输入标记和128 个输出标记的Llama-3-70B。假设每个批次包含来自一个序列的2048 个输入标记和来自127 个不同序列的127 个输出标记。
如果这样做,每个批次将需要大约(2048 + 127) 70B 参数 每个参数2 字节=304 TFLOP,但您将需要加载70B 参数 每个参数2 字节=140 GB 模型权重和大约127 64 8 128 (2048 + 127) 2 2=72GBKV 缓存权重。这远远超过了内存带宽。最大化NVIDIA H200 上的内存带宽需要6.8 PFLOPS 的计算。这是100% 利用率时的情况。 —— 利用率为30% 时,需要三倍的计算量。
搜狐拥有如此强大的计算能力并且利用率如此之高,以至于它可以在没有内存带宽瓶颈的情况下运行巨大的吞吐量。
3.软件问题不再是噩梦
一般来说,软件开发对于GPU 和TPU 来说是一场噩梦。处理任意CUDA 和PyTorch 代码需要非常复杂的编译器。第三方人工智能芯片(AMD、英特尔、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。
但Etched的搜狐只运行Transformer,因此开发者只需要为Transformer编写软件即可。
大多数运行开源或内部模型的公司都使用Transformer 特定的推理库,例如TensorRT-LLM、vLLM 和HuggingFace 的TGI。这些框架非常严格,虽然它们允许您调整模型超参数,但并不真正支持更改底层模型代码。但没关系。所有Transformer 模型(甚至文本/图像/视频模型)都非常相似,您真正需要做的就是调整超参数。
它支持95% 的人工智能公司,但最大的人工智能实验室使用定制。他们有一个工程师团队手动调整GPU 核心以提高利用率,并对每个Tensor Core 上延迟最低的寄存器进行逆向工程。
蚀刻说道: “搜狐的软件都是开源的,从驱动到内核再到服务栈,所以你可以通过内核向导自由地实现它。所以。”
4、成本优势
对于当今的AI基础市场运营商来说,NVIDIA的AI GPU是最昂贵的投资,其H100 80G版本售价高达3万美元,甚至更便宜的Intel Gaudi 3售价也在15,650美元左右。
大规模AI数据中心的建设成本达到数百亿美元,微软和OpenAI计划推出一款名为“Stargate”的AI超级计算机,为OpenAI提供强大的计算能力,甚至有传言称他们确实这么做了。该项目总成本可能超过1150亿美元。显然,NVIDIA AI GPU 将占成本的很大一部分。而这些耗能的GPU需要巨大的能源供应支出(按照目前的发展速度,很多地区的能源供应已经不足以支持大规模AI数据中心的建设),互联也带来了支出和散热开支。
能够用一颗Etched Sohu 芯片替代20 颗NVIDIA H100 芯片,肯定会大大节省采购、建设和运营成本。
2.专用芯片将不可避免地取代GPU
在Etched看来,虽然近年来GPU性能有所提升,但并没有真正提升,因为它主要是通过更先进的工艺技术和更大的芯片面积来实现的。过去四年来,GPU芯片的单位面积计算能力(TFLOPS)变化不大。例如,NVIDIA的GB200、AMD的MI300、Intel的Gaudi 3、亚马逊的Trainium2几乎都将两块芯片算作一张加速卡,以实现“2倍”的性能。
面对日益庞大的语言模型对AI算力的需求快速增长,摩尔定律的放缓以及单位面积AI算力增长的放缓将驱动GPU芯片不再满足需求。实现性能的唯一方法是使用专用芯片。
Etched 指出,在Transformer 架构模型席卷全球之前,许多公司都在构建灵活的AI 芯片和GPU,可以处理数百种不同的算法模型。示例:NVIDIA的GPU、Google的TPU、亚马逊的Trainium、AMD的MI系列加速器、Intel的Gaudi加速器、Graphcore的IPU、SambaNova SN系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Grayskull Tenstorrent、D-Matrix 的Corsair、Cambrian Thought 等。
然而,很少有制造商专门针对Transformer 架构算法生产专用AI 芯片(ASIC)。这是因为芯片项目至少耗资5000 万至1 亿美元,并且需要数年时间才能开始生产。如果推出针对特定算法模型的专用AI芯片,那么随着新的、更好的算法架构的出现,原有的专用AI芯片可能会变得失效并失去市场。
但现在情况发生了变化,基于Transformer架构的算法模型的市场规模正在快速增长。在ChatGPT 出现之前,Transformer 推理的市场约为5000 万美元,现在已达到数十亿美元。所有主要科技公司都使用Transformer 架构模型,包括OpenAI、Google、Amazon、Microsoft 和Meta。
此外,经过多年的发展,AI算法开始呈现架构融合的趋势。人工智能模型在过去发展迅速,因此每隔几个月就会出现新的人工智能模型。然而,自GPT-2 以来,最先进的模型架构基本保持不变,无论是OpenAI 的GPT 系列、Google 的PaLM、Facebook 的LLaMa,甚至Tesla 的FSD。
基于Transformer架构的模型惊人地相似。 SwiGLU 激活和RoPE 编码等调整广泛应用于LLM、嵌入模型、图像修复和视频生成。
GPT-2 和Llama-3 是相隔5 年的最先进(SoTA) 模型,但它们的架构几乎相同,唯一的主要区别是规模。
在此背景下,当算法模型架构开始稳定,想要进一步提升算力时,专用ASIC芯片是一个不错的选择。尤其是目前基于GPU的AI训练和推理基础设施的成本超过100亿美元,在如此高的成本压力下,1%的提升足以覆盖专用AISC的成本,专用AISC是必然的。
事实上,对于某些算法模型,ASIC 的速度可以比GPU 快几个数量级。例如,当用于比特币矿机的AISC 芯片于2014 年进入市场时,使用AISC 比使用GPU 挖掘比特币更便宜,因此这样做的传统做法很快就被放弃了。
显然,同样的事情也可能发生在人工智能领域,随着AI算法模型的基础设施开始稳定,GPU的计算能力不断提高,但遇到瓶颈,成本也越来越高。这就是为什么Etched 下了大赌注,推出了基于Transformer 架构的专用AISC 芯片“搜狐”。
3. 对未来的大赌注
与Nvidia 等主要人工智能公司一样,Etched 预测,五年内,人工智能模型在大多数标准化测试中将比人类更聪明。
Etched 进一步指出,经过元训练的Llama 400B(2024 SoTA,比大多数人类更聪明)使用的计算量是OpenAI 在GPT-2(2019 SoTA)上使用的计算量的50,000 倍。通过为人工智能模型提供更多的计算能力和更好的数据,它们会变得更加聪明。未来几十年继续发挥作用的唯一秘诀是规模,所有主要人工智能公司(谷歌、OpenAI/微软、Anthropic/亚马逊等)将在未来几年投资超过1000 亿美元来维持规模。我们目前正在进行历史上最大规模的基础设施检修。
OpenAI 首席执行官Sam Altman 此前曾表示,“规模化当然是一件好事,当我们在太阳周围创建戴森球时,我们可以讨论是否应该停止规模化,但我们无法在此之前阻止它。” ’我不能。”
Anthropic 首席执行官Dario Amodei 表示:“我认为我们可以扩大到1000 亿美元,而且我认为我们将在几年内实现这一目标。”
然而,将当今AI 数据中心的计算能力扩展1,000 倍将会非常昂贵。下一代数据中心的成本将超过一个小国家一年的GDP。按照目前的速度,现有的硬件、电网和资本投资无法跟上需求。
蚀刻说道: “我们并不担心数据耗尽;我们相信数据问题实际上是推理计算问题,无论是通过合成数据、注释管道还是新的人工智能标记数据源,我们都相信这一点。 Amodei 和Google DeepMind 首席执行官Demis Hassabis 都同意这一点。”
基于这样的发展趋势,Etched 认为未来获胜的大机型肯定会是在硬件上运行速度最快、最便宜的。 Transformer 功能强大、实用且盈利能力强,足以主导每个主要的人工智能计算市场,直到替代品出现。
Transformer 现在存在于每个大型人工智能产品中,从代理到搜索再到聊天。许多人工智能实验室已投入数亿美元进行研发,以优化GPU 以支持变形金刚。当前和下一代最先进的大型模型也基于Transformer 架构。
随着这些大型模型的规模在未来几年内所需的硬件资源从10 亿美元增长到100 亿美元甚至1000 亿美元,测试新架构的风险也会增加。您可以花时间在Transformer 上构建多标记预测等功能,而不是重新测试缩放法则和性能。
许多软件堆栈现在也针对Transformer 进行了优化。所有流行的库(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在GPU 上运行Transformer 架构模型的特殊内核。许多构建在Transformer 之上的功能不容易被替代方案(推测解码、树搜索等)支持。
因此,未来的硬件堆栈将继续针对Transformer进行优化。例如,NVIDIA的GB200专门支持Transformer(TransformerEngine)。
在Etched 看来,Transformer 架构是未来。 “如果我们的猜测正确,Soho 将改变世界。这就是我们下注的原因,”Etched 的网站称。
2022年,Etched已经下注,开始开发基于Transformer架构的搜狐芯片。当时的图像和视频生成模型是U-Nets。你驾驶的汽车是由CNN 驾驶的,但Transformer 架构并不普遍。这显然是一场豪赌。
目前,搜狐似乎已经能够支持所有大规模Transformer 架构的AI 模型,包括OpenAI 的GPT、Sora、Google 的Gemini,以及Stability AI 的Stable Diffusion 3,而两年前这些模型还没有出现。如果Transformer架构的AI大模型没有成为主流,无法支持CNN、RNN、LSTM、SSM、RWKV等传统模型或者其他新架构的AI大模型,搜狐也无济于事。
幸运的是,到目前为止,一切对Etched 来说都是有利的。从语言到视觉的各个方面的顶级模型现在都基于Transformer 架构。这种融合不仅证明了Etched 的赌注是正确的,而且还承诺使搜狐成为本十年最重要的硬件项目。
“像搜狐这样的ASIC 芯片进入市场标志着不归路。为了让其他Transformer ‘杀手’取得成功,Transformer 必须在GPU 上运行得比在搜狐芯片上运行得更快。”当这种情况发生时,在某些情况下我们甚至会为此构建一个新的ASIC!”
最后,Etched的观点与新智讯多年前写的《英伟达的AI盛世危机!》中表达的核心观点类似。这意味着GPU 并不是为处理特定的人工智能算法而设计的。但毫无疑问,未来,随着AI算法的演进开始趋于稳定,专用于特定算法的更高效的ASIC芯片将带来更多的好处。目前,顺应这一趋势,越来越多的云服务厂商纷纷推出自研的云AI芯片。
编辑:核心情报-浪客剑
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。