扎克伯格同学最近心情很不错。
(资料图)
与马斯克在线激情互喷垃圾话后,对标 " 元宇宙版推特 " 的 Threads 仅用了不到五天的时间完成了 1 个亿用户的积累,成为了全球用户总数破亿速度最快的新社交平台。Threads, 成为小扎打在马斯克脸上的一击力拳。
但商场的拳台上没有裁判叫停,扎克伯格说 Threads 的用户规模目标是 10 亿。而只有达到 10 亿目标以后,Meta 才会认真考虑 Threads 赚钱的问题。这一数字相当于推特目前规模的两倍。
扎克是认真的。无论是反感马斯克版推特的愤怒用户,还是 Meta 帝国多年沉淀下的庞大商业机构关系网,都在极短的时间内涌入了 Threads 平台。而在无数游牧迁徙的用户中,夹杂着一个硅谷最有权势的光头——微软首席执行官萨蒂亚 · 纳德拉(Satya Nadella)。
纳德拉过去是尊贵的推特蓝 V,拥有 307 万的用户,每天像 AI 一样毫无感情地转推各种微软的新闻公关稿。不过这次他专门注册了一个 Threads 账号,热情洋溢地宣布了微软将与 Meta 的 " 大模型婚姻 ":
微软云 Azure 将帮 Meta 训练和推广 Llama 大模型,而 Llama 也将上线 Azure 库和适配 Windows 系统。
而如双方官宣文件所言,Azure 从设备、硬件和软件(facility, hardware and software)层面进行了针对性的设计,从而支持世界领先的 AI 训练。而在本次合作后,Llama 的开发者则可以利用 Azure AI 的工具进行训练、微调、推理和安全方面的功能开发。
巨头之间的云合作屡见不鲜。但全世界都知道,Azure 可是 OpenAI 的御用云平台。
在 2019 年微软掏出 10 亿美元投资 OpenAI 后,Azure 就一直是 OpenAI 的独家云服务商。而 Azure 为了更好地为大模型提供算力和对外服务,重新进行了部分架构设计。甚至在一些观察者眼中,当年微软拍板投资 OpenAI 的核心原因,其实就是 Azure 的发展——
毕竟彼时 Transformer 还没有完全验证,但微软已经多年下注 AI 并开始将云业务的未来愿景视作是 " 为 AI 服务的超级计算设施 "。无论是算力支持,还是 OpenAI 开放全球的 chatbot 测试,Azure 都功不可没。
Altman 本人甚至还曾经专门发推对 Azure 团队的给力支持表示感谢,高度评价微软是 " 世界上最好的 AI 基础设施 "。
如今 Sam 前脚刚烧了两炷香,纳德拉转手就把这个 " 世界上最好的 AI 基础设施 " 租给了扎克伯格。
不知道俩人是不是提前商量好的。又或许对纳德拉来说,这大概都是计划的一部分。总之扎克伯格表现得很高兴。
在扎克伯格的 Instagram 账号里,他贴出了一张与纳德拉的亲密合影以 " 感谢纳德拉 ",扎克伯格表示:
"(Meta)将 Llama2 开源给了微软,而(这次开源)将成为下一代大模型建设工作的基础。"
微软与 Meta 的确是相互需要的。
Meta 正在走向大模型的 " 深水区 ",在 70B 参数的 Llama2 已经达到了 GPT3.0 的水平,几乎已经成为了目前口碑最好的大模型底座。对于闭源大模型阵营来说,Llama2 成功带来的压力一点不亚于 Threads 对于 Twitter 的震慑。
闭源公司花几千万搞不出来的东西,开源社区可以直接用,相当于将未来全球开源大模型社区的起跑线提升到了 3.0 的水平。
最近登顶 HuggingFace 开源大模型榜单的 Stability 的 Freewilly 大模型,被认为接近 3.5 的水平,正是基于 Llama2.0 调教优化后的产品。
对于 Meta 来说,参数规模的提升带来计算量的攀升、模型的逐步成熟也让看到更好的商用潜质。但如果要战胜这些困难、落实这些潜力,扎克伯格需要一个更高效的合作伙伴。而那些 Azure 已经有的、但 Meta 没有的东西,对于 Llama 来说就显得更重要了,比如 Azure 的算力经验、Azure 的 AI 工具箱、以及 Azure 的云本身……
Meta 是为数不多没有公有云服务的互联网巨头。
在过去,Meta 与亚马逊都互为对方的超级大客户,包括 Meta 的一些 AI 研发算力,也都是采购的 AWS。而微软这次撬墙角的方案,除了开放 Windows 场景以外,还开放了 Azure 的企业渠道能力,将 Llama2 加入到自己的产品名录中。
Azure 虽然在整体市场份额中依然落后 AWS,但是在 SaaS 销售领域却显著领先于同类竞争对手。而随着云与 SaaS 的融合,微软在渠道层面有显著的差异化优势。通过 Azure,Meta 和它的生态追随者们可以直接通过云端来销售和使用 Llama2 的产品。
对于微软来说,大模型的挑战则更加多元的。
微软过去在大模型应用层面几乎是 all in OpenAI 的产品。无论是最早接入的 Bing,还是基于 Windows 生态的 Copilot 面向开发者的工具生态 AI Studio、甚至是新的 AI 云服务品牌 OpenAI Azure,背后都是 OpenAI 的影子。
OpenAI 是全球最好的大模型公司,Windows 依然是全球最重要的生产力软件生态。但在大模型全球军备竞赛中,这两者的结合并不意味着绝对的胜券在握。
与 Meta 和微软结合几乎同时 " 官宣 " 的,则是苹果的大模型计划。
据海外媒体报道,苹果已经完成了名为 "Ajax" 的大预言模型基础框架,将开发类似 ChatGPT 的对话式 AI。而消费级产品的推出时间则计划在明年发布。
苹果的入场被认为是硅谷大模型竞赛中的重要变量。
相比于公有云之类的互联网风口,AI 是被苹果管理层高度认可的科技方向,近期管理层口风也有朝着 AI 加码的趋势。
除了长期关注 AI 科技外,苹果是全球最有钱、最有场景的公司。苹果每年净利润接近 1000 亿美元、经营净现金流超过 1200 亿美元,相当于微软与 Meta 的总和。苹果生态已经超过微软成为全球最大的封闭操作系统,活跃设备数量超过 20 亿,而微软只有 15 亿。
而相比于账面实力外,苹果更具想象力的是它的半导体能力。它或许是全球参与大模型竞赛的科技企业中,为数不多将来可以不用外采 GPU 与 CPU 的厂商。不仅如此,苹果的芯片效率似乎更有想象力。
在 2023 年 WWDC 上,苹果推出的 M2 Ultra 芯片。相比于普通厂商 CPU、GPU 分离的部署方式,M2 Ultra 统一内存架构以及随之带来的超高内存带宽,甚至可以让开发者在一张卡上就能跑大模型。
尽管类似的消费级芯片还无法和英伟达的专业芯片相媲美,但类似小秀肌肉,也让外界对苹果未来的 GPU 算力延展能力产生了兴趣。
以 OpenAI 为例,外界预估其大概同时动用了两万张显卡进行计算。但王小川近期对媒体表示,OpenAI 正在测试 1000 万张显卡同时计算的模型,相当于英伟达目前 10 年的产能," 完全是登月计划(级别)"。
除了苹果以外,微软、谷歌、Meta、亚马逊等巨头都有自研 AI 芯片的计划,但已经有顶尖半导体开发能力的苹果依然是最有资格 " 大力出奇迹 " 的人。
Apple 将两枚 M2 Max 的芯片连接在一起打造出 M2 Ultra谷歌凶猛、苹果虎视眈眈,微软和 Meta 选择结盟。
对于纳德拉来说,与 Meta 队形站位可以让微软在大模型的生态战争中更加稳固。
首先,微软依然需要开源,开源在未来的大模型竞争中将持续扮演重要的角色。
开源天然具有人才参与众多、迭代速度快、垂类覆盖效率更高的生态能力。虽然 OpenAI 拿下头筹,但开源社区的进步速度依然很可观。比如 Llama 只用了大半年的时间、使用参数 70B,已经赶上了 175B、耗时 2 年的 GPT3。
尤其是如果未来开源路线成为了行业解决方案的主流,Llama 与 Azure 深度结合,或许真的可以帮助微软云业务完成对 AWS 的弯道超车 ( 2022 年底 Azure 市占率 23%、AWS 为 32%)。毕竟相比于 Windows 和 Office,Azure 才是微软最赚钱、最有潜力的业务。
其次,开源大模型的不断发展,必然让愿意砸钱做封闭系统的厂家也自然会越来越少。
比如 Bard 在 Llama2 之后就受到了不小的压力。除了许多好事者在晚上讨论 bard 未来长期发展的压力外,有媒体报道称谷歌内部人士也曾撰文称 bard 在对抗开源社区时优点吃力,后者进步神速且成本更少、场景更丰富。
在大模型超级投入的产业结构没有变化的情况下,封闭式大模型依然会有其存在的合理性,但可能将仅仅限于极少数领先者,而其中大概率会有 OpenAI。
如果 OpenAI 有护城河,那它的名字可能叫 Llama2。
当然,OpenAI 其实也并不是微软的 " 亲儿子 "。
在 100 亿美元投资后,微软虽然拥有 75%的分红权,但实际上也只占有 OpenAI 49%的股权。换言之,微软虽然手握大量的 OpenAI 资源,但并不完全拥有 OpenAI 绝对的控制权。
但与 llama 合作像是一个标志,手握 OpenAI 的微软其实正在成为游戏规则的制定者:
它既有最具潜力的 AI 基础设施 Azure, 也有最前沿的商业化变现接口 Windows copilot。而当最核心的基础设施和渠道能力在微软手上时,OpenAI 也只是微软的 " 超级程序员 "。
当 Meta 等平台成熟后,微软可以再引入更多的 " 程序员 ",甚至开放更多的系统级场景给开源生态、从而让 Windows 系统的生产力进一步提升。
实际上,OpenAI 原本就只是纳德拉重注 AI 和语言大模型的一个选项。
在 ChatGPT 之前,微软甚至和英伟达合作开发过 5300 亿参数的大语言模型威震天 - 图灵 Megatron-Turing,是当年最大的基于 transformer 的模型,参数比 GPT3 多了好几倍,讲究的是绝对的大力出奇迹。
可最后威震天还是输给了奥特曼,于是威震天才选择了买下奥特曼。
但微软内部其实一直没有放弃大模型的相关技术路线开发。
例如 6 月时,微软就发布了 13 亿参数的 " 小型 " 大语言模型 phi-1。有 OpenAI 作为核心资产,微软不走 " 大力奇迹 " 模式,而是改用号称 " 教科书等级 " 的高品质资料集训练模型,让实际效果胜于千亿参数的 GPT 3.5。7 月时,微软还提出了新的大模型架构 RetNet,称其可以在更大数据维度基础上,比 transformer 更优。
图源:arxiv.org大模型的战事还远没到中场,威震天与奥特曼们的游戏或许才刚刚开始。