亚马逊AWSCEO:算力资源会持续紧张,AI需求几乎无穷无尽

科技每日十点见 2024-09-05 01:30:02

日前,AWS CEO Matt Garman 接受《No Priors》播客节目的采访,谈论了 AWS 早期起源、发展策略、云计算和 AI 的发展趋势,以及行业面临的算力资源短缺等话题。在 40 多分钟的采访中,Matt Garman讲述了在 AI 时代,AWS 的发展策略。从他的表述上看,他对于 AWS 在 AI 时代获得进一步增长满怀信心。

以下是智能超参数根据《No Priors》的采访实录翻译而来,enjoy:

精彩观点:

1、尽管AWS已经发展壮大,但它的业务仍处于早期阶段。很少有像云计算这样规模巨大并且可能对每个行业都产生变革性影响的商业机会。

2、按照大多数估算,大约还有80%到90%的工作负载没有迁移到云端。这个数字非常庞大,这意味着现有工作负载还有十倍的增长空间,更不用说每天都在产生的新一代AI工作负载了。因此,这项业务的潜力巨大。

3、我发现客户越来越喜欢这些开源模型,因为它们可以自行定制,尤其是企业,他们可以进行微调,添加自己的数据,进行定制和剪裁,做出一些有趣的事情。

4、在接下来的一段时间里,我们可能会一直处于一个算力资源紧张的世界。一些事情需要时间。比如建造半导体工厂需要很长的周期,不是一蹴而就的,需要几年的时间。

5、今天训练和推理的比例大约是50/50,但为了让这项技术实现经济效益,推理工作负载必须占据主导地位,否则在这些大模型上的所有投资都不会真正得到回报,所以希望整个行业都能实现这一目标。

6、我对生成式AI以及广义的AI感到非常兴奋,我认为这对 AWS 和我们的客户来说都是一个巨大的机会。在很多方面,这实际上会带来正向的飞轮效应,成为帮助客户向云迁移的一个推动力。

AWS 的起源及发展

主持人:听众朋友们,大家好,欢迎回到《No Priors》节目。今天,我们邀请到了AWS的CEO Matt Garman。他在五月接任CEO一职,而他自AWS还是一个零营收的业务时就已经加入了公司,见证了其成长为如今百亿美金规模的业务。欢迎你,Matt。

Matt,非常感谢你今天能加入我们。能和你交谈是我们的荣幸。我觉得特别有意思的是,你实际上是在AWS的早期阶段就加入了团队,当时AWS刚刚起步,而你则是以实习生的身份参与其中的。你能和我们聊聊AWS的起源以及你个人是如何参与其中的吗?

Matt:当然可以。那是在2005年。我在亚马逊做了商学院的实习。当时我们在寻找项目时,我与Andy Jassy交谈。他当时告诉我,他正在亚马逊内部启动一个新的、以技术为中心的业务,但在我正式加入之前,他不能透露太多细节。

我觉得这个项目听起来很有趣,所以我加入了他的团队,并在项目中工作。那时AWS还没有正式推出,而我有机会作为实习生参与其中。那真的是一次非常酷的机会。实习结束后,我全职回到公司,成为了AWS的第一个产品经理。

现在已经是第18个年头了,我一直在为这项业务工作。这个领域真的非常有趣。即使在当时,我们就已经看到了AWS 潜在的巨大潜力。

显然,那时候AWS还是亚马逊内部的一个初创项目。我们对它的未来有很多设想,但同时也有大量的艰苦工作、一些幸运因素,以及过去几十年中我们团队做出的正确决策,才得以建立起AWS。

今天最有趣的是,尽管AWS已经发展壮大,但它的业务仍处于早期阶段。很少有像云计算这样规模巨大并且可能对每个行业都产生变革性影响的商业机会。

因此,AWS现在仍然是一个令人兴奋的工作场所,就像2005年我作为实习生时撰写我们最初的业务计划,思考着哪些公司可能会对我们的服务感兴趣那样。

主持人:当时还有哪些项目供你选择呢?

Matt:我在去读商学院之前曾在一些初创公司工作。我当时想看看大公司是如何开展新项目的,特别是内部创业的情况。所以,我考察了几家科技公司,对亚马逊感到非常兴奋。当时还有一些零售业务提供的实习机会,主要集中在零售领域。

他们当时正在启动一些新类别的业务,这些也可能很有趣。但我始终知道,我最终还是想回到技术领域。AWS这个项目远远超出了其他项目,它的吸引力最终说服了我加入亚马逊,因为它看起来真的非常令人兴奋。

主持人:当时的最初计划有多么完善?我在2007年或2008年创办第一个初创公司时使用了AWS。当时AWS还很新,服务也只有一小部分。而且坦白说,当时大家并不认为亚马逊是一个技术深厚的公司。AWS的出现让人们感到惊讶,大家可能会认为,这样的事情更有可能是Google或其他公司率先推出的。所以我有点好奇,关于早期的构想、发展路线图以及你们是如何逐步不断发展的?

Matt:我记不清在最初的几年里,我解释了多少次为什么一家图书销售商会提供计算和存储服务。我认为,我们采取的方法最终成为我们早期成功的关键之一。如果你看看其他公司,比如Google,后来的微软,他们进入这个领域的方式有些不同。

首先,我们是第一个提供类似服务的公司。即便在我们之后不久,他们进入这一领域时,似乎打算让开发者改变他们构建应用程序的方式,并以一种全新的方式进行构建。而我们的方式是:我们要构建基础模块,让开发者和构建者可以创造有趣的东西。

这种思路其实是从亚马逊内部开始的。如果你回溯到2003年左右,Jeff Bezos基本上命令全公司从一个庞大的单体架构转向服务化,因为单体架构已经无法再为亚马逊扩展了。

这实际上推动了我们之后的发展。当我们看到这种转型的成功时,我们认为,也许这对其他可能面临与我们类似挑战的人也会有效。于是我们从最基本的需求出发,思考我们需要构建哪些东西来帮助他人建立公司。

我们知道,人们需要计算资源,需要存储,需要数据库。所以我们构建了这些服务。我们没有强迫人们改变他们的架构。当我们给你一个虚拟的Linux服务器时,你登录进去看到的就是一个普通的Linux服务器。

这并不神奇,但它能够自动扩展,而且你可以在30秒内获得它,这在当时非常了不起,因为通常你可能需要花费六个月的时间才能获得一台服务器。

当时,每个初创公司都需要去购买大量服务器架才能启动,这显然是一次革命性的变革。但一旦你获得了基础设施,它的运作方式和你习惯的没有太大不同。S3略有不同,PUT、GET和DELETE操作有些不同,但存储的概念并没有太大的变化。

我认为这正是我们快速发展的原因之一,也是让人们无需彻底改变开发方式的原因之一。它更多的是在开发基础设施的方式上发生了变化。随后,我们可以逐步添加诸如Lambda、Bedrock和AI服务等更为不同的东西,这些都是人们之前不习惯的。

但一开始,我们推出了一些大家熟悉的东西,他们可以立即上手并快速构建,而无需学习新概念,我认为这在我们早期是一个非常重要的加速器。

主持人:是的,这太重要了。我记得当AWS刚推出时,我认为有几件事情做得非常好。首先是你们提供了非常基础的构建模块。其次是你们的迭代方式——你们最初推出了一小部分服务,然后不断添加那些显而易见的下一步内容。

在早期,人们——至少在初创社区中——会怀疑:“他们最终会提供我所需的一切吗?”你们很快就做到了。在此之前,我认为今天大多数人在构建应用时根本不了解情况。

你提到的,之前你必须自己设置服务器架,或者找到能够为你完成这些工作的服务商。这是一个非常痛苦的过程。每家公司都有一个专门的团队负责这些事情。在某些情况下,这会导致实际问题。我的公司最终被Twitter收购,而在Twitter,我们在数据中心容量规划等方面遇到了真正的问题,这些问题现在可以通过亚马逊轻松扩展来解决。

所以AWS对初创公司来说确实带来了巨大的变革,并减少了与此相关的公司人员数量。我记得在2010年甚至2015年,你们仍然在与最大的客户进行这样的对话,比如某些大型金融公司,他们拥有整个平台团队,多次迭代。

他们会说,“我们永远不会使用公共云,从安全角度来看,你们无法与我们竞争成本。我们的平台更好,也更可靠。”

对于这种新兴公司,甚至在2010年,人们仍然对其持强烈怀疑态度,而AWS则像是一个挑战者。我认为现在几乎所有人都已经看清了现实,但你也提到AWS尤其是AWS在这段旅程中仍然处于相当早期的阶段。

即使是那些经历过更多指数增长的科技行业从业者,也很难理解这些市场的规模会变得多么庞大。

我们可能正在经历一个新的增长周期的起点,特别是在人工智能领域。我们稍后会讨论这一点。AWS内部的哪些时刻让你们意识到这将成为如此庞大的业务?你们早期是如何讨论市场规模和机会的?简单来说,你们在2010年左右的收入大约是5亿美元,而去年AWS的收入接近900亿美元。

是的,AWS经历了14年间近900亿美元的收入增长,这真是太惊人了。

Matt:是的,这很容易让人陷入那些大数字,以及它还很早的事实。所以回到你的问题,我们何时意识到我们正在走在这条轨道上。我记得大概是2008年或2009年,我不太记得具体是哪一年,但我清楚地记得那次旅行。我们去纽约访问了一些金融服务公司,包括高盛、摩根大通等,他们想了解云计算到底是什么。他们主要是为了获取信息,以便更高效地运行他们的内部IT系统,我非常确定。但是我们去了那里,想试一试。

他们当时表示:“我们的工作负载永远不会运行在你们的平台上。也许某天我们的网站会使用你们的服务,但我们的内部工作负载绝对不会。”

我们听取了他们的意见,然后问他们为什么,并请他们告诉我们原因。他们提到需要符合某些合规性要求、遵守某些规则、进行审计等。接下来的十年里,我们花时间逐一解决了这些问题。

我们从未说不行。我们的部分策略就是了解最困难的工作负载是什么,最具挑战性的任务是什么,并努力解决这些问题。因为如果我能让JPMC(摩根大通)在AWS上运行,如果我能让情报机构在AWS上运行,那么对于其他普通公司而言,使用AWS的障碍就会变得微乎其微。这就是我们当时的心态。

我非常喜欢帮助初创公司发展,但大企业往往会轻易忽视他们,认为初创公司没有全部需求。所以我们做了两件事:我们尽可能多地拓展初创业务,同时逐一解决那些帮助JPMC、政府或辉瑞等公司在安全且可靠的环境中运行的问题。

这就是我们所做的,今天这些大公司都成为了我们的重要客户。在我加入AWS大约一年后,我记得和一位在亚马逊其他部门工作的商学院同学聊天。他问我:“AWS的业务怎么样?”我说:“我觉得这个业务可能会成长为一个十亿美元的业务。”

他看着我说:“你知道十亿美元有多大吗?”他觉得我们不太可能实现这一目标。但我坚持认为我们可以做到,真的可以成为十亿美元的业务。

我们知道这项业务会成功,但不确定成功的规模和时间节点。如今,我们已经达到了百亿美金的年营收规模,然而根据估算,大约85%的工作负载仍然在本地运行。

按照大多数估算,大约还有80%到90%的工作负载没有迁移到云端。这个数字非常庞大,这意味着现有工作负载还有十倍的增长空间,更不用说每天都在产生的新一代AI工作负载了。因此,这项业务的潜力巨大。

我认为我们看到的一个重要的转折点是,当我们争取美国政府情报机构的合同时,我们赢得了这份合同,并且它是保密的。我们全力以赴争取了这个合同,竞争对手包括所有的大型公司,如惠普、IBM、Oracle等。

最终,我们赢得了合同,承接了这个云计算工作负载项目。但由于保密性,我们不能公开宣布这一消息。IBM对我们提起了诉讼,声称这不公平,结果这件事曝光了。

随后,情报机构公开表示,AWS是最技术先进、能力最强、运营最稳定的合作伙伴,这就是我们选择AWS的原因。政府的这次公开表态对我们来说是一个巨大的背书。

某种程度上说,我们有些幸运,因为他们提起了诉讼,否则我们赢得这份合同的事情可能仍然是个秘密。我确实认为,这次事件帮助我们在企业界获得了很大的信誉。

80%的工作负载为什么不上云?

主持人:你提到还有80%的工作负载尚未迁移到云端。你认为这些工作负载面临的主要障碍是什么?是因为惯性、特定的功能需求,还是仍然有尚未解决的技术问题?

Matt:有些技术问题,如果有一个“简单按钮”可以直接将主机迁移到现代云架构,几乎每个人都会按下这个按钮。我们确实在努力构建这样一个“简单按钮”,但目前还没有。这并不像说“好吧,我会在云端运行你的主机”那么简单,因为这不是客户真正想要的。他们实际上希望现代化这些工作负载,把它们转换为微服务,并将其容器化等。

所以,一方面,确实有很多老旧的工作负载,像是那些在大公司中运行的大型SAP系统,它们想要迁移到云端,但这需要时间,因为它们与其他许多系统紧密集成在一起。此外,还有很多属于业务核心之外的工作负载,比如全球范围内运行的5G基础设施。我们已经逐步将这些工作负载迁移到云端,帮助客户获得云端运行所带来的灵活性和敏捷性。

但这些迁移的速度较慢。如果你想一想,今天很多工厂车间中运行的计算系统,大多数还没有现代化。实际上,AI有巨大的机会可以彻底改变我们对工厂工作流程和效率的思考方式,但很多工作负载还没有迁移到云端。

所以,这里有一些本地的基础设施仍在摊销,还有一些人负责运行本地数据中心,他们对迁移持抵触态度。所以,有许多因素在阻碍迁移的进程。有些是时间问题,有些是技术问题,还有一些是我们仍然需要构建和创新,以帮助客户更容易地实现迁移。

自研大模型重要吗?

主持人:我很想听听你们对生成式AI这一技术变革的初步研究,以及AWS是如何开始应对并进行调整的。因为在某种程度上,这让我们回到了一个像是本地或合租服务器的时代,如果你要进行任何实际的预训练来启动你的初创公司,你就得去购买一堆DGX服务器,并且还要考虑这些服务器的成本和管理问题。

Matt:我观察到,大多数人现在还是在云端购买这些设备,但这确实不像无服务器的工作负载。大多数人还是不会购买H100并将其托管在合租服务器中,随着液冷和更大集群的兴起,我认为这将变得越来越困难。

但这确实是一个非常有趣的领域。我认为我们在这个领域已经耕耘了很多年。我们在过去十年中一直在广泛投资于AI领域,这也是为什么五、六年前我们开始在基础设施层面投资并构建我们自己的处理器,因为我们看到了这个趋势的到来,知道这不是一个短期的投资项目。这是你必须提前很久就要开始投资的事情。

然后我们在构建生成式AI模型上进行了投资,而OpenAI在他们的能力和可能性方面实现了一次代际飞跃。正如很多人所说,在某种程度上这不仅仅是一次技术进步,更像是一次新发现,展现了一种全新的能力集。所以,我们实际上作为一个企业退后一步,思考这些将成为变革性的能力。考虑到这种技术会越来越好,我们如何让所有公司都能使用这些技术?

不同于如何构建一个吸引消费者的应用程序,我们更多是从AWS的角度出发,考虑如何为所有客户——无论是初创公司还是大企业——提供帮助他们构建有趣的生成式AI应用程序的基础模块。因此,我们从最基本的原则出发,认为客户会非常关注安全问题,这不会改变。他们不会突然不再关注如何保障他们的基础设施安全。

我们还有两个假设:一个是不会只有一个模型会占据主导地位。我们认为会有很多不同用途的模型,有大的模型,也有小的模型,人们会想要将它们以新的有趣的方式结合在一起。过去两年的发展大体上验证了这一点,但在OpenAI最初发布时,这还不那么明显,不过这也是我们做出的一个赌注。

另一个是,我们认为每个在我们平台上构建的企业,其主要的独特价值将来自他们的数据。他们会非常关心他们的数据不会泄露到模型中,或者从他们的环境中逃逸出来。

基于这些原则,我们构建了一系列产品,确保这些技术的安全性,确保客户数据的安全性,确保他们可以访问所有必要的技术去构建有趣的应用程序,同时还能以具有成本效益的方式实现。这就是我们在这一领域的做法。

我认为我们现在拥有的平台,包括Bedrock、Tranium芯片、Inferentia芯片以及一系列其他能力,以及我们提供的专有和开源模型,正在逐渐获得越来越多客户的认可。他们喜欢这个平台,并愿意在这个平台上构建,因为它赋予了他们在构建应用时所需的控制力。

主持人:你认为AWS提供自己的第一方自研模型对客户来说有多重要?因为这显然是其他大型云服务商的一种策略。

Matt:Google显然是这么做的,他们是目前唯一一家提供第一方模型的其他超大规模云服务商。微软则很好地利用了OpenAI的创新,尽管最近我看到他们将OpenAI列为最大的竞争对手之一。所以这将是一个有趣的局面,看看最后会如何发展。

对于我们来说,我认为这很重要,所以我们也在构建自己的第一方模型。我们现在确实有自己的第一方模型,事实上,Titan embeddings模型是我们在Bedrock中最受欢迎的embedding模型,很多人都用它来构建搜索索引等应用。我们也在构建越来越大的模型。第一方模型将是重要的,但并非关键因素。

我认为大家也非常喜欢使用Anthropic的Claude模型,这些模型都非常出色,目前它们是世界上性能最好的模型,这非常棒。我们刚刚在推出的当天就上线了Llama 3.1,与Meta的合作非常紧密,他们的开源模型也非常出色。

我发现客户越来越喜欢这些开源模型,因为它们可以自行定制,尤其是企业,他们可以进行微调,添加自己的数据,进行定制和剪裁,做出一些有趣的事情。

所以我认为这点非常关键。我们看到了一些“专用”模型,比如Adobe的Firefly,它完全是在AWS上构建的,专为他们自己的需求而设计的。无论是亚马逊的第一方模型,还是我们为客户提供的模型,我认为它们都是整个生态系统中重要的一部分。部分是为了我们自己的学习,一部分是为了支持我们自己的应用,当然其中一些可能是为了终端客户。

但总的来说,AWS希望提供最好的选择,并让所有这些工作负载都能在AWS上运行。我们致力于在有需要的地方提供创新,当然我们也很乐意看到我们的合作伙伴在AWS上运行他们的模型。所以,我认为这是一种双管齐下的策略。

AWS 一直支持开源

主持人:这确实很有意思。Alyssa Henry也是AWS的一位长期领导者,她是我的朋友。在这些年里,我会向她请教一些有趣的开源项目。老实说,她的回答最让我感到震惊。她总是说:“AWS非常支持开源,我们在开源上赚的钱比任何开源公司都多。”如果你考虑到AWS的所有优势,即便你对生态系统非常友好,事情也会以这种方式发展。所以我认为,最近在开源权重模型和多个竞争者,如Mistral、Llama等的出现,极大地促进了AWS的开放生态系统模式。

Matt:我们一直支持开源。我们是许多开源项目的重要贡献者,领导了不少开源项目。我认为我们在帮助客户运行托管开源项目并将其转化为业务方面做得非常好,这对我们来说是一个重要领域。坦率地说,部分原因在于我们长期以来的理念是不希望客户因为某些专有许可而被AWS锁定。我们希望客户愿意在我们平台上运行,而不是被微软的某种许可协议困住,或者难以摆脱旧的Oracle数据库。我们希望客户能够自由选择是否在AWS上运行。

即使是像Aurora这样的托管数据库服务,它也是100%兼容Postgres的。你可以将代码拿到其他地方的Postgres数据库上运行,虽然可能没有我们运行得那么好,但理论上如果你运行得当,它也能很好地工作。很多我们的服务都是按照这种方式构建的。

我们会支持一些专有的东西。有些服务确实需要利用云的优势,比如DynamoDB等技术。但总体上,我们非常拥抱开源,我认为这对整个行业都有利,它提供了更好的安全性、更多的可见性,同时还具备了许可的可移植性,我认为这是一个关键的方面。

AWS 在 AI 领域的布局

主持人:你提到AI领域的模型,以及构建AI应用所需的其他主要构建模块。除了检索增强生成(RAG)、微调等技术,越来越多的客户还在关注评估套件以及其他AI组件。你能否谈谈这些构建模块,以及AWS将来在这些领域的布局和计划?如何应对这种更加碎片化的AI工作负载世界?

Matt:这正是Bedrock的核心理念:我们希望让这些操作变得简单。我认为,目前模型是所有人关注的焦点,但随着时间的推移,这种关注度会逐渐减少。未来,人们会更加关心其他构建模块,如RAG或某种知识库。

我们称之为知识库,因为底层技术可能会随时间而变化,但如何拥有一个可靠的知识基础是关键。我也认为实时数据的基础对于AI系统来说是一个有趣的领域。我们有一些客户非常看重的功能,比如“护栏”,这些对于金融服务行业的客户特别重要,因为如果你的聊天机器人开始提供金融建议,你可能会被罚很多钱。你当然不希望它谈论敏感话题。

所以这些“护栏”非常重要,人们在构建AI系统时需要考虑它们要做什么,以及哪些内容需要避免。这并不具争议性,我相信你们也经常听到这些。

我认为AI系统的下一个重要进展将取决于我们如何将“代理型”工作流集成进去,并使AI系统不仅仅是总结和提供信息,而是实际执行任务。因此,我们在这方面进行了大量投资,希望能够让你更容易在Bedrock中构建代理型工作流。

我确实认为预训练和微调将会是越来越多客户的需求,随着时间的推移,还包括模型精炼。

今天早些时候我刚和几位客户交流,他们非常关注如何将模型缩小到一个更小的规模,以便在工业边缘设备或类似环境中运行。因此,如何进行精炼以便在获得所需价值的同时,不需要整个推理引擎,这将是一个长期的发展路线图,类似的还有模型评估和其他相关技术。这其中有些是我们自己开发的,但也有一些是我们的合作伙伴提供的。AWS一直以来的成功部分原因在于我们非常拥抱整个生态系统,并鼓励生态系统的发展。

举个例子,关于数据标注,我们与Scale AI有着深入的合作,帮助客户进行数据标注,无论是用于微调还是预训练。另外,我们也与Langchain这样的公司合作,帮助构建一些代理工作流等类似的应用。当然,模型提供商也是我们非常重要的合作伙伴。所以,所有这些因素共同作用,我们的任务就是让你更容易地构建这些应用程序,以便能更加紧密地集成这些不同的组件,更加快速地进行创新,同时也能更好地利用AWS数据湖中的专有数据。

坦白说,如果没有有趣的数据,这些生成式AI系统将不会特别有用。

GPU 短缺的问题

主持人:另一个大家现在花费大量时间研究的瓶颈是芯片方面或半导体系统方面的问题,特别是数据中心容量的问题。显然,AWS已经在构建Tranium芯片和其他技术,我认为看到这些进展令人兴奋。你如何看待未来的GPU短缺问题?这种短缺问题会消失吗?你对未来的容量有何看法,业界是否已为数据中心和半导体的建设做好准备,整个供应链是否已成熟?

Matt:我认为在接下来的一段时间里,我们可能会一直处于一个资源紧张的世界。一些事情需要时间。比如建造半导体工厂需要很长的周期,不是一蹴而就的,需要几年的时间。台积电正加速扩展产能,但不仅仅是他们,内存供应商也在努力扩展,坦率地说,我们正在建造的数据中心也是如此。当我们思考这些价值链中的许多环节时,可以看到,AI的需求增长可能是指数级的,有些元器件还在努力追赶。

我认为AWS在应对这些问题上比其他公司更有优势。我们已经花了18年的时间,学习如何进行智能投资,如何进行资本配置。我们花了很多时间思考如何采购电力,确保是绿色和碳中和的电力,这些都是非常重要的事情。我们过去几年是新增可再生能源项目合同的最大采购方。我们已经在这一领域深耕了一段时间,以便增加这一部分的容量,AI的出现只是增加了这一需求。们在思考如何获得足够的电力。

我们自己的芯片是支持Nvidia芯片增长的一种方式。我认为多样性越多,我们的处境就越好。我们是NVIDIA的重要合作伙伴,NVIDIA实际上在AWS上运行他们的AI训练集群,因为我们拥有最稳定的基础设施,因此他们在我们这里获得了最好的性能。

我们非常喜欢这种合作关系,并且我们的关系越来越紧密。我们认为Tranium等技术是一个很好的多样化手段,我认为将来有些工作负载会在Tranium上运行得更好,而且成本更低。Inferentia也是如此,今天训练和推理的比例大约是50/50,但为了让这项技术实现经济效益,推理工作负载必须占据主导地位,否则在这些大模型上的所有投资都不会真正得到回报,所以希望整个行业都能实现这一目标。

但我认为在接下来的一段时间内,我们的资源可能会比较紧张,因为需求几乎是无穷无尽的,现在看起来是这样的。

AI 基础设施需求非常庞大

主持人:AWS如何看待对如此大规模数据中心的投资,以训练下一代基础模型?因为你们是一个非常有经验的玩家,你们可以采取主动的方式,也可以采取以客户为导向的方式。但事实是,现在有一些客户需要成千上万个节点以及互联的GPU,这对市场来说是一个全新的需求向量。

Matt:有些非常大的模型对资源的需求非常庞大,他们谈到需要数千兆瓦的容量,这对我们来说是个难以想象的数字。我们采取了两种方式,既有主动的,也有以客户为导向的策略。我们努力在两者之间找到平衡,因为这需要巨大的资本支出,我们谈论的是数十亿甚至上百亿美元的资本投资。

因此,我们思考如何在土地、电力等方面做出正确的投资,这些都是可替代的,如果需求发生变化或增长速度改变,这些资源也可以用于其他用途。同时,我们也要确保对供应链的可见性,以满足近期的需求,比如服务器、芯片、内存等部件的需求。

我们在管理这些方面需要投入大量的精力,既要满足客户的长期需求,也要考虑财务影响。我们的一些客户给我们提供了长期承诺,这有助于我们应对这些需求,我们也会为提供大规模长期承诺的客户提供更优惠的价格,因为这需要大量投资。

当然,所有这些都有很大的不确定性,因为任何年增长率达到几百个百分点的事情,你不可能准确预测出需求数字。所以我们努力保持足够的缓冲资源,以应对需求增长,并在需求低于预期时进行管理。

给创业公司的建议

主持人:AWS已经经历了许多代的初创公司,它们都在决定要在基础设施上做出什么样的投资。对于新一代AI公司来说,这个问题变得比以往任何时候都更加重要。作为管理数据中心的人,你会给这些公司的创始人什么建议?

Matt:我们以前也经历过这种情况。从年收入1亿美元增长到100亿美元,再到现在的1000亿美元。我是在AWS还没有任何收入的时候加入的,而现在我们达到了年收入1000亿美元的规模。我们经历了这样的快速增长,我们也在思考如何平衡这些因素。我认为对于初创公司来说,一个重要的问题是如何考虑投资以及如何制定一个明确的盈利计划,而不是假设总会有更多的风险投资来救场。

有一个应对计划是至关重要的:如果需要,我可以更早地开始盈利,在哪里可以继续投资。

如果在我的业务领域里,市场表现良好,那么这些投资是合理的。因为最终导致初创公司倒闭的唯一原因就是资金用尽。只要你不耗尽资金,你就不会破产。虽然说起来容易,但做起来难。然而,我认为有些初创公司会忘记这一点。他们总是觉得:“没关系,我可以再去融资。”

但他们需要记住,仅仅因为有热潮并不意味着六个月后会有人再给你提供10亿美元。我在职业生涯的早期学到了这一点。我的第一个创业项目,当时我们筹集了2700万美元,这在当时是一笔巨款。结果在18个月内我们就用完了资金,然后2000年科技泡沫破灭,资金枯竭,我们的公司也随之倒闭。我们当时认为可以轻松筹集到更多资金,但事实并非如此。

谁会是 AI 浪潮的受益者?

主持人:从我的投资组合或朋友的公司来看,有趣的是,你会看到一些明显的例子,比如OpenAI,他们的市场主导地位与他们的巨额开支高度相关。这种情况并不适用于整个投资组合。我只投资AI公司,大家绝对需要计算资源,尤其是那些做自我训练或微调的公司。但是在我们的公司中,那些在早期最具进展的公司通常在一到两年内就实现了从零到几千万美元的增长。

人们还会问的另一个开放性问题是,生态系统中的所有价值创造是否最终会流向计算资源供应商,最终成为NVIDIA或模型供应商的巨大收益?目前来看,答案显然是否定的。我认为不同层次的公司会获得不同的收益。

Matt:市场上可能有足够的空间容纳所有人。如今,大多数收益确实流向了NVIDIA,我认为这是因为AI市场处于早期阶段,他们构建了令人难以置信的技术,推动了一些非常酷的东西。所以我认为这没问题。在某个时刻,关键将是那些能够真正解决问题并为企业和客户提供真正价值的公司。

我观察到,现在有很多企业在进行AI概念验证(POC),有时候他们会找到一个效果非常好的案例,并将其投入生产。我认为,如果你能创办一家能让这部分变得更容易的初创公司,比如“这是真正的价值所在”,这不仅仅是一个网站上的聊天机器人,而是一个可以帮助你更快地销售、提高创新速度、实现以前无法实现的事情、改善制造效率的应用,无论初创公司或企业专注于哪个领域,最终应用层面才是关键所在。

大多数人不会从头开始构建一个客户关系管理系统(CRM),他们会使用Salesforce之类的东西。同样,大多数公司不会从头开始开发软件。所以,未来大多数公司不会从头开始构建自己的模型,他们可能会进行微调,但大多数公司会使用现有的软件和模型来构建自己的应用程序。

因此,我并不惊讶于你不一定要花费数十亿美元来构建自己的模型,你可以构建一个小型模型。

主持人:这似乎与之前几次软件和互联网浪潮的模式相似。Code2或其他某些公司可能有一些很好的幻灯片,展示了每一层次积累的相对价值。每一层次都会随着时间的推移获得收益。所以,我觉得这个问题在某种程度上被夸大了,它的重要性可能被过分强调了。

你认为,如果将公共云的发展模式和AI平台的发展模式进行比较,AI平台的发展会有什么不同吗?我刚和几家大型企业客户交流过,正如你所说的,虽然他们在这个领域进行了大量的概念验证投资,并且在高层引起了很大的兴趣,但我也感到有些似曾相识。很多大企业都在说,没有哪个平台能满足我们的需求,所以我们必须构建自己的平台,从数据管理、GPU管理到训练和推理、评估套件以及合规和审计全都涵盖在内。我想说,我似乎又见过这样的情景,你认为这次会有什么不同的结果?

Matt:确实是这样的。我认为,每当一个新领域出现,某些需求还未被满足时,人们往往会想:“那我得自己动手做了。”然而,通常也有其他人在同时开发这些功能,比如我们。如果这些功能已经存在,那么他们可能会说:“好吧,如果你们已经有了这些功能,我就不需要自己开发了,现在我可以停止投入了。”

因为实际上管理GPU并不是大多数企业的核心竞争力。除了超大规模云计算提供商或类似的公司外,大多数企业并不真正愿意这样做。对于他们来说,如果可以使用SageMaker,并且SageMaker具备他们所需的所有能力,他们就可以构建所需的服务。目前的SageMaker还没有完全满足所有需求,但我们在快速迭代,每个月甚至每周都在推出新功能。

因此,我对这一点有很强的信心,特别是对于这一层的技术栈来说,实际上让企业自己开发这些东西并不合理。现在他们自己开发这些东西并不奇怪,因为有些功能还不存在,他们想要实现某些目标,并且他们的优先级可能与我们提供服务的时间点有所不同。但如果这些功能是集成在平台中的,同时也是他们的数据湖的一部分,并且所有这些功能紧密结合在一起,这种基础设施模式可能更合理。

当然,这并不意味着我们会开发所有这些功能,有些功能可能由建立在我们平台上的合作伙伴提供,这也是非常好的。但我确实认为,最终支持这一领域的很可能是那些在这些领域中专门化的公司,而不是单个企业。

AWS 未来愿景

主持人:如果我们抽象出一个层次来问,你对AWS未来三到五年的愿景或整体思路,你会怎么回答?在未来的几年里,AWS的业务有哪些关键领域和重点?

Matt:这确实是一个很重要的问题。我对生成式AI以及广义的AI感到非常兴奋,我认为这对我们和我们的客户来说都是一个巨大的机会。我认为,在很多方面,这实际上会带来正向的飞轮效应,并且成为我们之前讨论过的,帮助客户向云迁移的一个推动力。你知道,我们最初的AWS论点是,我们帮你处理繁琐的工作,让你不必操心。今天,客户仍然需要处理许多繁琐的工作,我认为生成式AI可以在这方面提供帮助。

因此,在未来的三到五年里,我们将重点投资于构建工具集和平台,使客户不再需要管理这些组件。他们不再需要考虑GPU,或者思考如何将这些集群整合在一起,所有这些都可以被抽象化。如果你使用Bedrock模型,你实际上不会与GPU交互,你只是发送token,收到token作为响应。未来,你将能够进行微调和预训练,向模型发送信息以进行训练,但本质上你还是在发送token并接收token作为反馈。

所以,我们希望尽可能多地抽象这些工作,不论是serverless还是应用程序平台,客户都可以基于这些构建应用程序。事实上,我们现在所处的阶段还非常早,我认为随着时间的推移,生成式AI将成为你考虑的计算构建模块之一。

你会需要存储、计算、数据库、推理等作为你的应用程序的一部分,我认为这将成为大家预期中的一种构建方式。网络和其他技术也是如此,推理将成为其中的一个模块,它会有大模型和小模型,用户会在成本、延迟和功能之间进行权衡。

我确实认为它将成为应用程序的一部分。因此,我们正在努力将其作为平台的一部分构建,你在构建应用程序时,它就是其中的一部分。从现在到实现这一目标之间,还有很多工作要做,但我认为这是未来大多数应用程序的构建方式。

主持人:我们一开始谈论了AWS的早期阶段,以及你们是如何应对那些看似不可思议的需求,比如来自大型金融公司的需求。如今,AWS已经拥有1000亿美元的年收入,你们仍然是初创公司的重要合作伙伴。这个做法与一些传统的智慧相悖,传统上人们会认为选择一个目标客户群,并逐步向上发展市场,是更好的策略。为什么AWS仍然如此重视初创公司?我知道你个人也非常关注这一点。

Matt:对我们来说,初创公司至关重要,它们是帮助我们成长的源泉。我们从初创公司那里学到了很多,因此它们将继续在我们业务中占据非常重要的位置。事实上,我们将在支持初创公司方面投入更多精力,这将成为我们工作的一个重要部分。

主持人:非常感谢你今天与我们分享了你在AWS过去20年中的经验。这次谈话非常有趣,感谢你抽出时间与我们交流。

Matt:谢谢你们邀请我,很高兴参与这次对话,真的很有趣。

0 阅读:11

科技每日十点见

简介:感谢大家的关注