IT产业每隔十年技术浪潮就会剧变。十年前,IT产业的浪潮是“云转型”。
当时亚马逊旗下云计算业务——亚马逊云科技首次公布收入,它在2014年收入规模仅有46.4亿美元。但这家规模还不算大的公司站上了技术变革的潮头。它在随后十年,营收增长近20倍,2023年营收规模为907.6亿美元。2024年营收规模有望超过1000亿美元。
亚马逊云科技依靠“云转型”逐渐成为全球最大云厂商。国际市场调研机构Gartner今年7月数据显示,2023年亚马逊云科技在全球公有云IaaS(基础设施)市场份额为39.0%,位居全球首位。
十年后的今天,大模型是新的技术浪潮。“AI转型”替代“云转型”成了IT产业的新趋势。每一次IT技术变革,关键窗口期只有两三年。巨人倒下时,身上还是暖的。如果不能及时跟进,很快会被竞争对手拉开差距。在此背景下,亚马逊云科技近两年都在建立AI时代的产品体系。
美国西部时间12月3日,在亚马逊云科技年度大会re:Invent 2024上,这家公司发布了一整套面向AI时代的新产品,包括自研大模型Amazon Nova系列、新一代AI训练芯片Trainium 3、新版Amazon SageMaker(数据分析和AI的一站式平台)、新版AI助手Amazon Q等。
亚马逊云科技还更新了AI改造过的计算、存储、数据库等基础云产品。近一年,亚马逊云科技一直在重塑IaaS(基础设施)、PaaS(平台软件)、SaaS(应用软件)、MaaS(模型服务)层的产品。
这家公司在“AI转型”的早期取得了不错的市场反馈。它的营收增速、利润水平在迅速攀升。最新财报数据显示,亚马逊云科技营收增速连续五个季度回升。2024年三季度营收增速为19.0%,是2023年后的高点。2024年三季度营业利润率高达38.1%,是2020年之后的高点。
IT产业的技术变革,“领头羊”变成“守旧者”的案例数不胜数。尤其是市场份额位居首位的巨头,容易反应迟缓甚至视而不见。亚马逊云科技要如何面对这轮技术变革?
两场演讲中,亚马逊云科技 CEO(首席执行官)马特·加曼(Matt Garman)、亚马逊云科技高级副总裁彼得·德桑蒂斯(Peter DeSantis)分别阐述了当下这家公司的战略思考。
一是更关注客户实际需求——解决实际问题,而非沉迷技术本身。马特·加曼解释,“我们称之为客户至尚和逆向工作法。倾听他们,理解他们想要什么,然后逆向工作,创造出一个出色的产品。这种以客户为中心的逆向工作法是亚马逊云科技基因的一部分。”
二是长期重金投资“根技术”。云服务是规模经济,亚马逊云科技希望带来高性能、低成本的云服务。彼得·德桑蒂斯提到,“根技术”创新如同亚马逊雨林的根系,可以从一棵树的底部延伸数百英尺与附近的树木相互纠缠,支撑树木生长在不稳定的土壤之中。亚马逊云科技为此长期研发芯片、存储、网络、数据中心等“根技术”。这能保持技术创新、降低计算成本、提升计算效率,也是公司长期保持竞争力的核心。
大模型强,如何落地也强
人们普遍认为,这一代大模型技术将成为改变全球产业企业的技术。但大模型的产业落地并不容易,需求方的企业普遍遇到了两个难题。
算力成本贵。大模型的主要算力成本分成训练、推理两部分。随着AI应用数量增多,算力资源消耗也在加大,算力成本也随之攀升。采购一枚AI训练芯片起步价是1万美元。企业进行模型训练、微调、推理时还要反复试错,可能会浪费算力资源,整个过程中算力成本不可控。
工程落地难。大模型一般无法开箱即用。它要用高质量数据进行二次训练,有时还要蒸馏、微调,最终接入应用后才能真正被使用。即使如此,模型“幻觉”(生成不符合事实或毫无根据的信息)仍然没有彻底解决。在金融、制造等专业领域,它有出现低概率但致命错误的可能,但这是绝对无法接受的。
亚马逊CEO安迪·贾西(Andy Jassy)以亚马逊自身的大模型落地实践为例,提到了三点经验。
其一,当AI应用达到一定规模时,计算成本的重要性变得愈加凸显。大家迫切希望获得更高的性价比。
其二,打造一款优质的AI应用是有难度的,用上好模型只解决了70%的工作。
其三,永远不会有一款模型能够一统天下,要给客户选择的权利。
面对上述问题,亚马逊云科技采取了“多模型+生态开放”的策略——它可以提供选择空间,让客户找到价格、性能适合的模型。
亚马逊拥有自研的大模型Nova系列,其中包括四个基础版本(Micro、Lite、Pro、Premier),以及图像模型Nova Canvas、视频模型Nova Reel。
亚马逊还投资了AI创业公司Anthropic。Anthropic旗下的Claude系列模型和亚马逊云科技深度合作。一位亚马逊云科技人士今年11月曾表示,Anthropic旗下Claude系列模型性能很强,是市面上少数可以和GPT-4对标的模型之一。因此,很多亚马逊云科技的客户,会默认首选Claude系列模型(相关文章可见《亚马逊再出手,向OpenAI最大挑战者Anthropic追投40亿美元》)。
亚马逊云科技的模型平台Amazon Bedrock集成了亚马逊、Anthropic、Meta、AI21 Labs、Cohere、Mistral Al、Stability Al、Luma AI、Poolside等九家大模型厂商的几十款精选模型(备注:Luma AI、poolside即将上架)。此次Bedrock模型平台上还更新了模型市场——Bedrock Marketplace。它就像是一个“超市”,上架了来自IBM和英伟达等公司的100多款专业模型或行业模型。
为何采用“多模型+生态开放”策略?这和市场需求有关——不同模型特长不同,模型进化速度也极快,企业很难找到一个完美的模型适用于所有应用场景。事实上,很多企业在同时使用多款模型。
一位国际ERP(企业资源管理)厂商人士今年8月曾提到,他们的业务之中使用了10余款模型,它们可以随时调用切换。他认为,选择丰富之后,才能根据模型的性能、成本、表现选型。这可以尽量降低试错成本,也可以动态切换成本更低的模型,避免被一家模型公司绑定。
安迪·贾西(Andy Jassy)解释称,亚马逊云科技给了开发者自主选择的权利。使用模型时,拥有多种选择至关重要,“永远不会出现一种工具能在某个领域一统天下的情况”。他举例,就像数据库(备注:数据库已经诞生超过60年),多年来大家仍会使用各种各样的产品。
选择模型只是第一步,大模型真正被使用还要经过其他工程化手段,才能真正落地。为解决这一问题,亚马逊云科技推出了下一代Amazon SageMaker、AI助手Amazon Q等产品。
Amazon SageMaker被视为解决生成式AI全生命周期问题的一站式平台。大多数大模型无法“开箱即用”,它要用高质量数据进行二次训练,可能还要经过蒸馏、微调等。因此,数据才是大模型的灵魂。只有给大模型喂入够多的高质量数据,模型准确度才会够高。
SageMaker平台承担了两部分任务,一是把企业内散落在各个“孤岛”的数据进行查询、治理、分析;二是把高质量的数据用于模型的二次训练和开发。这可以降低大模型的开发、使用门槛。
Amazon Q是一系列AI助手工具,其中包括代码开发(Developer)、商业分析(Business)、数据报表(QuickSight)、Connect(智能客服)、Supply Chain(供应链管理)等一系列模块。Amazon Q比SageMaker的使用门槛更低,这是一套可以开箱即用的工具。它适合大部分普通用户使用。
为何会在此时推出模型市场Bedrock Marketplace、下一代Amazon SageMaker、AI助手Amazon Q等一系列工具?
亚马逊云科技的一位专业人士解释,这源于客户需求,亚马逊云科技不会为了创新而创新,也不会拍脑袋设计产品,而是采用“逆向工作法”——从客户实际需求逆向推导,从而推出适合的产品。这是亚马逊云科技能够长期保持竞争力的关键。
算力太贵,如何降低成本?
亚马逊云科技应对算力昂贵的做法是——自研芯片。大模型让云厂商自研芯片的动力变强了。
大模型是典型的“吞金兽”,科技公司需要投入巨额资本支出采购芯片和服务器,租赁土地建设数据中心。云厂商近两年资本支出普遍在激增。以亚马逊为例,它在最近两个季度资本支出增速高达70.4%,是近三年的高点。亚马逊管理层在2024年三季度财报电话会中预测称,2024年资本支出将超过750亿美元。
一位芯片行业人士解读,亚马逊云科技等云厂商自研芯片一般有两条逻辑:其一,云厂商自研芯片通常可以降低单位算力成本,让自家云业务更有性价比;其二,节省外部芯片采购费用,减少对芯片供应商的依赖。不过,这些芯片不会直接对外销售,而是在云厂商的数据中心,变成云化的算力对外租赁。
亚马逊目前量产了三款自研芯片,分别是——Arm架构的CPU芯片Graviton 4,它主要对标英特尔、AMD旗下芯片产品。AI训练芯片Trainium 2,它主要对标英伟达旗下A100/H100等旗舰级别的AI训练芯片。AI推理芯片Inferentia 2,它主要对标英伟达旗下A10等入门级别的AI推理芯片。亚马逊云科技方面的说法是,Graviton 4、Trainium 2比同规格的其他芯片,性价比可提升40%。
我们了解到,目前亚马逊全球新增算力的一半以上都是基于Arm架构Graviton系列芯片,数量已经超过了x86系列芯片(主要生产企业包括英特尔、AMD)。亚马逊云科技还将在2025年量产Trainium 3。这款AI训练芯片采用了3纳米工艺制程,性能比前代产品Trainium 2高出两倍,性价比可以提升40%。
某中国云厂商一位不具名的芯片负责人曾分析称,云厂商自研芯片通常可以针对自身业务特点做优化。自研芯片在实现量产的前提下,通常比英特尔、英伟达的芯片采购成本、运营成本更低。节省下来的成本可以让利客户,用于降低算力价格。
一批企业已经成了亚马逊云科技自研芯片的使用者,其中包括苹果公司和AI创业公司Anthropic。
苹果公司是亚马逊云科技自研芯片的重要客户。苹果的搜索服务采用了Graviton 4和Inferentia 2的云服务,其机器学习推理工作负载的效率提高了40%以上。苹果机器学习和AI高级总监伯努瓦·杜宾(Benoit Dupin)在re:Invent 2024演讲时表示,苹果还处于评估Trainium 2芯片的早期阶段,在Trainium 2上对其模型进行预训练,效率将提高50%。
AI创业公司Anthropic使用亚马逊云科技自研芯片更激进。Anthropic联合创始人兼首席计算官Tom Brown(汤姆·布朗)在re:Invent上宣布了“雷尼尔计划”(Project Rainier)。该计划的核心内容是,Anthropic未来将使用一个拥有数十万枚亚马逊自研芯片的算力集群,其芯片数量将是Anthropic现有算力集群的五倍以上,是目前世界上最大的机器学习算力集群(相关文章可见《Anthropic将使用数十万枚亚马逊自研芯片》)。
除了自研芯片,亚马逊云科技还一直在基础设施层提升计算、存储、网络、推理等云计算核心产品的运行效率。这同样可以降低算力成本,提高云的性价比。
这其中有大量看不见的技术优化,涉及数据中心如何管理、网络光纤如何排布、存储设备如何定制等一系列细节。彼得·德桑蒂斯提到,亚马逊云科技每年都进行巨额差异化技术投资,目的是建成高性能和低成本的基础设施。一位亚马逊云科技中国区人士对此解释,IT行业有一句话,好的软件工程师,往往要懂底层硬件。基础设施层的技术创新,都是上层的AI和应用需求所倒逼的。
比如,亚马逊云科技软件和硬件管理系统Nitro——它就像数据中心的“交警”,可以智能地调度服务器、网络、存储设备,它既能减少交通拥堵,还能够保证系统安全。算力资源因此可以得到高效利用。
这仅仅只是其中的一个切面。亚马逊的技术投资在其财报中有所体现。这家公司长期保持着高强度的研发支出率,近三年研发支出率已经攀升至近十年来的高点。