作者丨王沁、编辑丨邱晓芬、据The Information消息,硅谷芯片公司Cerebras Systems正于近期递交上市申请。这家公司成立于2015年,累积融资7.2亿美元,估值飙升到42亿到50亿美元。
值得注意的是,这家公司背后,与OpenAI的造芯布局和中东公司的AI野心都有关联——Cerebras最大的投资人之一是OpenAI的首席执行官Sam Altman。而Sam Altman此前曾多次前往中东募资造芯,曾有传闻称其募资额7万亿美金。
巧合的是,Sam Altman当时洽谈的阿联酋科技公司G42,目前也正与Cerebras进行资本合作和技术合作。
这家公司最独特的地方在于,他们的芯片和主流的英伟达GPU大相径庭。过去,芯片在摩尔定律的牵引下,越做越小,以英伟达H100为例,814平方毫米的核心面积上有800亿晶体管。
而Cerebras的AI芯片,则选择将一整张芯片越做越大,号称“造出了世界上最大面积芯片”。据介绍,Cerebras开发的WSE 3芯片由整张晶圆切割,比盘子还大,需要人用双手捧起来。一张WSE 3芯片,在46000多平方毫米的核心面积上,有40000亿晶体管。
比盘子大的芯片,需要用双手捧起来。图源Ars Technica
为什么要做得这么大?
或许是为了满足训练AI大模型所需的巨大算力。Cerebras宣称,他们的芯片可以训练的 AI 大模型规模,比目前业界顶尖大模型还要大10倍。
当下,AI大模型参数和性能的迅猛膨胀,训练AI的芯片算力却快跟不上了。随着摩尔定律放缓,英伟达GPU采用多卡互联的方式,堆叠显卡,来提升算力。即使英伟达GPU针对AI训练做了优化,但GPU毕竟是通用芯片,而非AI专用芯片。
英伟达GPU了占据AI芯片的大半市场份额,但举目望去,专用AI芯片已经发展了至少十几条技术路径,英伟达有不少年轻对手。其中Cerebras的超大面积芯片,试图在技术上,大力出奇迹。
如何把芯片做得比盘子还大?
众所周知,英伟达GPU原本是图形处理器,擅长并行处理多个简单计算,因为训练AI也需要同时对所有数据样本执行相同的操作,GPU后来也用于训练AI。
不过,GPU毕竟不是专为AI设计的芯片——GPU需要用PCIe的方式连接电子组件,在组件之间传输数据,这限制了芯片的大小、连接类型,甚至通信标准。此外,服务器机箱的标准又限制了冷却功率,冷却功率限制了芯片的功耗,功耗又限制了训练AI模型的速度。
在层层的限制之下,若要将训练速度提高上百倍,需要从根本上重新思考处理器之外的更多方面,包括系统架构、核心设计、内存架构、通信结构、芯片 I/O、电源和冷却基础设施、系统 I/O、编译器、软件工具链等等。
这也是为什么Cerebras公司的全称是Cerebras Systems——该公司考虑的是直接颠覆掉英伟达过往的既定思路,重新设计一整个AI芯片系统。从产品上看,Cerebras的 AI芯片最大的特点是,不仅芯片大,配套的散热系统也是前所未有地大。
不过,一味把芯片做得比盘子还大,这是噱头还是实力?Cerebras的技术路径有什么优缺点?
目前,世界上绝大部分芯片是将晶圆切割成多块,再封装成小块的芯片。以英伟达的抢手货H100为例,一张12英寸的晶圆,光刻机可以刻出86块左右的核心逻辑芯片。
而Cerebras是将一整块晶圆做成芯片,直接把光刻机刻出的80多块晶片拼在一起,去掉边角料,晶片之间连接成一块大芯片。因此,Cererbras的芯片也称为“晶圆级引擎”。
Cerebras选择将晶片直接原地放在晶圆之内连起来,能让晶片之间直接连接通信,而非GPU那样要在不同块GPU之间通过数据导线来通信,加快了芯片核心之间的通信速度。
如此一来,便达到强大的计算性能。据Cerebras官网信息,WSE-3芯片的单个处理器上就有90万个AI核心,是英伟达H100的52倍;片上内存达到44GB,是H100的880 倍。
Cerebras将一整块晶圆上的晶片连接一起。图源:HPC Wire
在GPU这类传统构架中,存储是共享的,每一个计算核心没有专门的存储空间,存储空间的数据吞吐能力容易跟不上计算单元的需求量。
打个比方:当水池子大,但是水管小时,水管吞吐容易出现不及时的问题,导致池子里的水就会被闲置,来回搬运数据也会耗时、耗功率。
Cerebras的技术优势在于,通过重新设计计算核心的结构,给每个计算核心配备了带宽足够大甚至有冗余的存储单元,如此实现了分布式的存储和计算。相当于,每个核心都是一个单独工作的工人。
据Cerebras官网信息,在WSE-3芯片上,片上存储的总带宽达到21PB/s,互联网络总带宽达到214PB/s,这样就没有数据搬运时带宽不足的问题。
Cerebras的芯片被美国能源部下属的阿贡国家实验室采用,自2020年以来一直用于COVID-19研究和癌症肿瘤研究。 据HPC Wire报道,在用Cerebras芯片训练模型来预测癌症药物反应中,与 GPU 基线相比,在 Cerebras芯片上实现了数百倍的加速。
不过,这样力大砖飞的芯片设计,看起来很美好,但也有自己的弱点。
第一是良率低。以英伟达H100芯片为例,即使是台积电这样的业内翘楚,4nm制程芯片达到80%良率已经是顶尖。考虑到80%的良率以及切割损耗,一张12寸晶圆上刻出的86块左右的晶片,最后达到良率的晶片是65块左右。
显然,Cerebras想让一整块晶圆上切割出的80多块晶片都能用,但难度也会高很多。对于主流芯片来说,一整张晶圆上的一小块晶片做失败了,其他晶片还能用。但对Cererbras这样的芯片来说,难道一张晶圆上任何一个晶片有缺陷,一整张晶圆都要放弃吗?
Cerebras的解决方式是,当一个晶片出现有缺陷的计算核心时,会让AI软件在运行时绕过有缺陷的计算核心,而是用冗余的计算核心。
Cerebras宣称,通过这种利用冗余来绕过缺陷的设计,其WSE 2芯片实现了100% 的良率。这也是为什么Cerebras的高管强调,“冗余是你的朋友。”
Cerebras高管在公开演讲中强调“冗余是你的朋友”。图源:Cerebras Systems Youtube频道
第二个弱点是,需要庞大的散热系统。当芯片的面积增加,有更多的电流流过晶体管,半导体电阻自然会产生更多的热量。如果热量过高,还会分解芯片及其表面的小部件。英伟达的Blackwell GPU数据中心中,都需要巨型的冷却系统。而Cerebras的巨无霸芯片,更是需要重新设计一套庞大的的散热系统。
Cerebras服务器的散热系统像一个庞大的怪物:图中右侧硕大的黄铜管都是用来连接水泵来散热的。管道、泵、风扇和热交换器等要占用大量空间。
尽管芯片本身只有 21.6平方厘米,且非常薄,但外壳散热系统需要占据标准机架约三分之一的体积。专门的散热系统也意味着,部署芯片需要额外的配套成本。
因此,Cerebras虽然把芯片做得比盘子还大,确实在技术上力大砖飞,但是部署所需的整体成本不一定具有性价比,这种创新的路径还需后续经过市场验证。
隐藏着Sam Altman的造芯野心
英伟达芯片帝国之外,AI芯片的技术路径众多,Cererbras力大出奇迹的路线还是看点,市场上也已经用钱给他们投票。
目前,这家公司已融资7.2亿美元,估值约为42亿到50亿美元,其中,最大的个人投资者之一是OpenAI的首席执行官Sam Altman。据报道,Sam Altman参与了Cerebras 的8000万美元D轮融资。
毕竟,Sam Altman曾宣称要花7万亿美元造AI芯片。Sam Altman多次前往中东,与包括阿联酋政府在内的投资者进行谈判,寻求募资,计划提高世界芯片制造能力。
在Sam Altman和他所投资的Cerebras芯片公司之间,还与一个中东公司G42关系密切。G42是位于阿联酋首都阿布扎比的科技巨头,开发人工智能技术,同时对外投资。Sam Altman的中东之旅常常会拜访G42,OpenAI也在2023年10月与G42签订了合作协议。
G42与中国也有渊源。其创始人肖鹏在中国出生,曾在美国接受教育,后来放弃美国国籍,成为阿联酋公民。 G42的基金在过去两三年投资了很多中国科技公司,包括字节跳动。但今年2月,受美国政府施压,G42撤出此前在华的所有投资。
不过,Sam Altman的造芯布局远不止于Cerebras,而是更加宏大。
第一是与芯片大厂合作,特别是英伟达GPU之外的大厂——不把鸡蛋放在一个篮子里。去年12月,AMD推出AI芯片MI300X,OpenAI就下了订单。此外,OpenAI表示在其一款名为 Triton 的软件产品中支持 AMD GPU。
对外投资也是重头戏。早在2018年,Altman就个人投资了一家名为Rain AI的AI芯片初创公司,自掏腰包100万美元。Rain AI采取的AI芯片路径是NPU。 2019年,OpenAI签署了一份意向书,斥资5100万美元购买Rain的芯片。
除了对外投资,Sam Altman对于OpenAI的自研芯片也一手抓。6月9日,消息称,OpenAI大力从谷歌TPU团队挖角人才,来发展自研芯片。OpenAI计划将目前仅有数人的芯片团队扩展至数十人,且几乎所有新招募的研究人员均为谷歌TPU团队的现任或前任成员。
Altman的造芯野心不仅于此,他甚至想创建一个新的芯片项目「Tigris」——横跨几大洲,联合阿联酋的G42和日本软银等公司,拉拢台积电、三星和英特尔等顶级芯片制造商,建成覆盖全球的制造工厂网络。
据报道,早在Sam Altman去年11月戏剧性地被OpenAI解雇之前几周,他就前往中东募资,已与软银集团公司、沙特阿拉伯公共投资基金、穆巴达拉投资公司等公司就这些合资企业进行了谈判,寻求数百亿美元的资金。
Cerebras这家略显小众的技术路线的公司上市,既是对英伟达GPU护城河的一个挑战,也是Sam Altman在英伟达GPU垄断之外建立新的AI芯片格局的一步。