微软在最近的人工智能浪潮中可谓是占到了聚光灯下,从花重金完成OpenAI的交易,到把ChatGPT集成到Bing搜索引擎中,都站在了整个领域发展的前沿。而在几天前,又有消息传出微软正在和AMD合作开发自研的人工智能芯片。整个故事一波三折,我们在这里把微软自研人工智能芯片的大概脉络梳理一下。
首先,大约在半个月前,有媒体报道微软正在为了大语言模型(LLM,目前最前沿的人工智能技术,同时也是ChatGPT背后的模型技术)自研芯片,内部代号是Athena。然后,在五月二号,在AMD发布2023年第一季度财报之后的分析师电话会议上,有分析师问到AMD如何看待目前互联网云计算公司自研芯片,是否有和相关公司合作研发半定制芯片的计划,AMD CEO Lisa Su表示AMD目前在CPU、GPU、FPGA和DPU等领域拥有非常完整的IP库,同时也有很强的半定制芯片团队,所以公司有计划在该领域进一步投入来为大客户合作。两天后,彭博社报道AMD正在和微软合作人工智能芯片,一方面微软在为AMD提供人工智能方面的研发支持,另一方面AMD正在为微软开发Athena芯片。在该报道发出之后,AMD的股价一度上涨6%。紧接着彭博社的报道,微软发言人表示AMD是微软重要的合作伙伴,但是目前微软的Athena芯片并非由AMD开发。但是,微软并没有否认和AMD在人工智能方面合作的报道。
(资料图片)
我们认为,总结现有的报道,一方面AMD的半定制芯片领域将会是未来人工智能领域公司的重点投入方向之一,因为人工智能应用的大客户(主要是互联网科技巨头)对于这个领域有非常大的兴趣;另一方面微软虽然Athena芯片未必是直接交由AMD开发,但是微软在人工智能硬件方面和AMD合作开发的可能性很大。目前看来,最有可能的状况是微软正在和AMD合作开发一整套用于加速人工智能大语言模型的硬件解决方案,该解决方案中包括了微软自研的Athena芯片,同时也包括了AMD的CPU等芯片。在Athena芯片开发过程中,很大可能微软会考虑加入对于AMD芯片组相关的接口和优化(甚至可能会用到一些AMD的IP),同时AMD在设计该合作的硬件解决方案中,有可能也会考虑加入一些由微软定义的半定制成分(例如数据接口,存储带宽,对于微软人工智能框架的优化等)。
最后在芯片系统集成方面,如果微软使用AMD已经具有丰富经验的高级封装技术把Athena和AMD的芯片集成到一起也会是一个情理之中的结果,而在上层软件整合方面,预计微软和AMD会深度合作并且保证整个人工智能系统能高效地运行在系统中。
看到这里的发展,不禁让人感慨时过境迁:30年前,正是微软和Intel深度合作的Wintel联盟点燃了整个PC市场的高速发展,微软和Intel都在该过程中获得了高速增长,而在那个时候AMD还是一个市场上可有可无的角色,甚至有说法认为Intel留着AMD主要是避免触发反垄断法被拆分;而到了今天,AMD的市值已经超越了Intel,微软则在最火热的人工智能领域选择了和AMD合作。另一方面,我们认为微软和AMD在硬件和芯片领域深度合作也掀开了科技巨头自研芯片的新篇章,即从强调自己造芯片到强调和传统芯片公司合作——注意这里的合作并不只是代工或者设计服务方面的合作,而是在设计指标、IP、软硬件接口等领域的深度合作。
互联网科技公司自研芯片的历史
我们不妨回顾一下互联网公司造芯的历史。互联网公司自研芯片几乎和2016年开始的人工智能热潮同步。人工智能的崛起对于互联网的业务起了决定性的影响,在云端,人工智能技术大大提高了推荐系统和广告系统等互联网公司的核心业务,而在终端,人工智能也为诸多重要的计算机视觉和语音技术赋能。为了人工智能相关业务而自研芯片的公司几乎囊括了所有的科技巨头,包括谷歌、微软、亚马逊、阿里巴巴、字节跳动、百度等等。从自研芯片的出发点来看,过去互联网科技公司自研芯片主要出于两方面的考虑,即成本和功能。
从成本角度来看,由于人工智能计算需要非常大的算力,因此成本也很高。供应链角度来看,Nvidia是最主流的云端人工智能芯片供应商,而其GPU的售价一方面很高,另一方面对于科技巨头来说过分依赖单一供应商也存在供应链风险成本(尤其是对于中国互联网巨头来说,依赖Nvidia的风险更是由于受到地缘政治的影响存在很高的不确定性)。而另一个角度是GPU的能效比在运行人工智能应用时并不完美,事实上在云端数据中心应用中,有很大一部电费成本是在为人工智能应用在买单。因此,互联网科技巨头在云端人工智能芯片领域自研的主要目的是一方面减少对于Nvidia的依赖,另一方面是希望能实现比Nvidia更好的能效比,这样在大规模部署的时候,从综合成本的角度来看可以比直接购买Nvidia的GPU成本更低。在这方面,谷歌的TPU是一个著名的例子,在迭代了几代之后,我们看到目前谷歌TPU的性能和Nvidia的GPU通常相类似,但是在能效比等影响成本的角度,可以实现比Nvidia更好。
另一个互联网科技公司自研芯片的主要目的是为了实现更强的功能,即目前市面上并不存在能满足公司需求的芯片,因此需要能自研芯片来满足设计需求,同时相较于使用第三方通用芯片的其他公司创造了更高的产品竞争力。这里的典型例子就是微软在HoloLens中使用的自研HPU芯片来加速人工智能机器视觉相关的应用,从而为HoloLens的核心功能模块(例如室内SLAM定位等)提供足够的算力同时不会消耗太多电池。而谷歌用在Pixel手机上的Tensor处理器也是另一个相关的例子。
互联网公司之前的自研芯片往往强调“自主”这个方向。自主意味着自研芯片的最关键模块(IP)以及系统架构是由互联网公司自己设计。在实际操作层面,由于互联网科技巨头毕竟在芯片行业积累不多,因此通常会构建一支数百人的团队,该团队主要负责芯片架构定义和核心IP的设计验证;而另一方面,通用IP(例如DDR等)通常使用购买的方式,同时在后端设计等可以可以外包的职责则交由外部设计服务公司完成。总而言之,互联网公司造芯的通常模式是由自己的核心团队完成芯片架构定义和核心模块设计,然后和中立的第三方IP公司和设计服务公司合作以购买其他的通用IP并完成整个芯片设计流程。
微软掀开互联网造芯新篇章
微软和AMD的合作是科技巨头造芯的一个新里程碑:这次微软并不是只和中立的第三方设计服务公司合作,而且同时和一个传统芯片大厂合作来设计支持下一代人工智能技术的芯片和硬件系统。换句话说,科技巨头自研芯片从强调“自主”慢慢走到了今天开始走向“合作”。
如果我们想要探究这个转变的原因,我们认为目前至少有两个因素在驱动这个转变。第一个因素就是未来人工智能对于算力的需求在指数级上升,其对于芯片系统复杂度的要求也是和之前不可同日而语。
举例来说,2016年的时候最热门的人工智能应用是机器视觉(物体识别和分类任务),主流模型参数量通常在10M-100M之间,算力需求在1-10 GFLOPs左右;而目前流行的大语言模型(例如ChatGPT以及其下一代GPT-4)的模型参数量在1T数量级,算力需求在1-10PTOPS左右,可以说无论是参数量还是算力需求都比原来大了1000倍以上。在这种情况下,人工智能芯片设计已经和2017年时候谷歌主要为了机器视觉类人工智能任务设计的TPU完全不同——在2017年,谷歌TPU可以围绕其基于脉动阵列的卷积加速IP以及较大的片上SRAM就能完成大量的人工智能任务加速,其TPU可以说和系统里的其他芯片相对而言更独立,可以只要把那个脉动阵列IP和片上存储做好了性能就能达标;而在2023年,由于模型的参数量和算力需求都已经高了几个数量级,因此在设计人工智能加速芯片时必须仔细考虑硬件系统里的其他芯片,包括存储访问、高速数据互联、数据和计算在CPU和人工智能芯片之间的分割和移动等等,可以说是一个非常复杂的系统,而且这个复杂系统里必须把每一个芯片的性能都做到合理才能保证整体系统的效率,否则系统里面的任何一块芯片都可能成为整体效率的瓶颈——换句话说如果只是优化人工智能加速芯片而没有其他芯片的搭配优化,那么很有可能整体性能并不会很高。
显然,科技巨头不可能去自研系统里的所有这些芯片,而必须和传统芯片大厂深度合作才能完成一个整体都很优化的系统,尤其是AMD在整体系统整合(高级封装技术和数据互联技术)都有非常深厚的积累,而微软则在软件层面有更多的能力,两者深度合作可谓是优势互补。
除了系统复杂度之外,另外一个驱动因素是目前的经济形势。对于科技巨头来说,虽然人工智能保持火热,但是全球的整体宏观经济形势并不乐观,因此科技巨头都倾向于降低非核心业务扩张和投入的程度。对于芯片业务来说,科技巨头都更倾向于把投入放在刀刃上,即和人工智能核心加速相关的IP上,而在其他非核心IP和系统里面的其他芯片来说,科技巨头会转而交由合作伙伴去完成,而不是像几年前一样倾向于自己扩张团队来做尽可能多的事情。
从未来来看,科技巨头造芯的格局将会在某种程度上延续目前的格局,但是我们预计也会看到更多的和传统芯片大厂的深度合作。如前所述,在下一代人工智能这样的应用中,我们可望会看到越来越多微软和AMD这样的合作来共同挑战这样的复杂系统;另一方面,由于经济形势的影响,我们预计会看到互联网科技巨头造芯的时候越来越多地移向上游,即定义芯片架构,以及交付核心IP,而这些IP在SoC里面的整合可以交由合作伙伴完成,甚至我们可能会看到更多特制版SoC,例如在公版SoC的设计基础上集成了互联网科技巨头提供的核心IP这样的方式,从而最大程度降低设计成本开销。从这个角度来看,互联网科技巨头需要的不仅仅是一个设计服务伙伴,而更需要该芯片合作公司已经有相关的SoC设计和量产经验。从这个角度来看,AMD、三星、MTK等都会是这类业务的受益者,因为他们有很强的设计服务/半定制芯片部门,同时也有尖端SoC设计量产的经验。同时,从技术角度来看,高级封装和芯片粒技术可望将在这类芯片合作中起到核心赋能作用,因为如果能使用芯片粒,那么就可以把科技巨头的核心IP做到芯片粒中去和其他SoC集成,而无需在专门设计一个专用的SoC光罩掩膜,这样就可以大大降低设计成本,另一方面也大大增加设计的灵活性——这可能也是微软和在芯片粒高级封装领域有丰富经验的AMD合作的另一个理由。