但想要*化程度发挥出GPU的AI训练与推理功能★ღღღ,还要借助数据中心的力量★ღღღ,一座AI数据中心里往往装着数以万计的GPU★ღღღ,正是通过这种协同作用★ღღღ,才有了像 ChatGPT 这样功能强大的聊天机器人★ღღღ。
但AI数据中心的价格并不低★ღღღ,动辄数十亿美元的造价★ღღღ,不止是科技巨头们的专属★ღღღ,也让很多实力并不雄厚的国家地区望而却步★ღღღ。
随着使用人工智能所能做的事情越来越多★ღღღ,高端芯片的地缘政治重要性也与日俱增★ღღღ,越来越多的国家和地区正在竞相囤积芯片★ღღღ,甚至还颁布了阻止部分国家地区购买最尖端芯片的制裁措施★ღღღ,但截至目前壹定发手机在线游戏网址★ღღღ,关于全球人工智能芯片的确切位置的公开数据却出奇地缺乏★ღღღ。
来自牛津大学互联网研究所教授 Vili Lehdonvirta揭露了一个不可忽视的现实★ღღღ:GPU 高度集中在全球仅 30 个国家地区之中★ღღღ,其中★ღღღ,美国和中国遥遥*★ღღღ,而大部分地区都处于所谓的“计算荒漠”中★ღღღ:根本没有 GPU 可供租用★ღღღ。
在GPU设计和销售方面的市场*是总部位于美国的Nvidia公司★ღღღ,芯片制造由台湾的台积电(TSMC)主导★ღღღ,而荷兰的ASML目前是*生产光刻机的公司★ღღღ,这些机器对于制造*进的芯片至关重要(Miller 2022)★ღღღ。因此★ღღღ,计算供应链的这些部分在地理位置和所有权方面都高度集中★ღღღ。
这项研究关注的是供应链的第三步★ღღღ:全球哪些地区部署了芯片来提供AI计算以用于AI开发和部署★ღღღ,也就是用于训练AI模型和运行现有模型的推理★ღღღ。大致上★ღღღ,有三类大规模的计算提供者★ღღღ:科学超级计算设施★ღღღ、私人计算集群和所谓的公共云计算提供者★ღღღ。
科学超级计算设施自20世纪60年代初以来就已存在★ღღღ,通常由政府资助★ღღღ,主要用于学术和军事目的★ღღღ。OECD(2023)的一项研究对科学超级计算设施进行了简单的地理分析★ღღღ。根据TOP500数据库★ღღღ,中国的超级计算机数量最多★ღღღ,占32%★ღღღ;其次是美国★ღღღ,占25%★ღღღ;欧盟占21%★ღღღ。然而★ღღღ,大多数科学超级计算机并非为AI模型训练设计(OECD 2023)★ღღღ。当前生成式AI发展的繁荣主要依赖于私人计算集群和公共云计算★ღღღ。之前的研究并未详细分析它们的地理分布★ღღღ。
私人计算集群由营利性公司拥有★ღღღ,如Meta★ღღღ、HP以及许多小型公司★ღღღ。这些集群由部署在数据中心的GPU互连计算机组成★ღღღ。一个私人集群既可以用于该公司的AI开发★ღღღ,也可以租给其他公司使用★ღღღ。公共云计算提供者同样是营利性公司★ღღღ。它们之所以被称为“公共”★ღღღ,并不是因为与政府有关★ღღღ,而是因为它们的服务是按需提供的★ღღღ,并由多个客户共享(即类似于酒馆中“公共”的含义★ღღღ,而不是公共部门的“公共”)★ღღღ。公共云计算市场的*包括AWS★ღღღ、Microsoft Azure和Google Cloud★ღღღ;中国的公共云提供者阿里巴巴和腾讯也提供大规模AI计算★ღღღ。这些大型提供者通常被称为“超大规模计算提供者”★ღღღ。
其中该研究主要关注了公共云AI计算的地理分布★ღღღ。私人计算集群曾用于训练一些标志性模型★ღღღ,如Meta的Llama和Llama 2★ღღღ。但大量前沿AI模型的训练和开发集中在公共云的超大规模提供者Google★ღღღ、Microsoft和Amazon★ღღღ,以及它们与*AI公司的“计算合作伙伴关系”中★ღღღ,如Anthropic雷电将军乳液voiux★ღღღ、Cohere★ღღღ、Google DeepMind★ღღღ、Hugging Face★ღღღ、OpenAI和Stability AI★ღღღ。公共云还很重要★ღღღ,因为它对许多不同类型的开发人员开放★ღღღ,包括学术研究人员★ღღღ。因此★ღღღ,我们的主要研究问题是★ღღღ:全球公共云AI计算的地理分布情况如何?我们还将探讨这些地理分布的潜在原因★ღღღ,讨论它们对计算治理和地缘政治的影响★ღღღ,最后简要讨论私人集群和政府拥有的国家AI计算★ღღღ。
该研究的普查涵盖了六大超大规模公共云提供商★ღღღ:AWS★ღღღ、Microsoft★ღღღ、Google★ღღღ、阿里巴巴★ღღღ、华为和腾讯壹定发手机在线游戏网址★ღღღ。虽然也有一些较小的提供商★ღღღ,但这六家占据了全球公共云市场的大部分份额★ღღღ,并且在各区域市场中也处于*地位★ღღღ。在普查进行时★ღღღ,训练常见AI模型的最强大GPU是Nvidia于2023年推出的H100★ღღღ,之前的旗舰型号A100于2020年推出★ღღღ,V100更早于2017年推出★ღღღ。2023年★ღღღ,Nvidia引入了H800和A800以规避美国对中国的出口限制★ღღღ,但这些限制很快扩展到了这些新型号★ღღღ。数据收集的重点放在这五种与AI最相关的GPU类型上★ღღღ。
从普查数据库中★ღღღ,该研究构建了一个国家级的数据集★ღღღ,以便进行地理分析★ღღღ。对于每个国家★ღღღ,其计算了其领土内的公共云区域总数★ღღღ,还计算了至少支持一种GPU的区域(“支持GPU的区域”)的子集★ღღღ,以及支持特定GPU类型的区域子集★ღღღ。
为了补充云普查数据★ღღღ,研究进行了定性和半结构化的专家访谈★ღღღ。我们总共采访了10位信息提供者★ღღღ,分别代表了两位政策专家★ღღღ、三位超大规模公共云提供商专家和五位在AI计算方面具有专业知识的研究专家★ღღღ。这些信息提供者通过我们自身的专业网络采用滚雪球采样方式招募★ღღღ。这些访谈的主要目标是改进并验证普查方法★ღღღ,生成关于公共云AI计算地理分布的补充或替代信息★ღღღ,并帮助解释观察到的地理模式★ღღღ。
图1展示了普查中发现的公共云区域的大致位置★ღღღ。表4则显示了每个国家有多少个云区域★ღღღ,以及这些区域中有多少提供GPU实例★ღღღ。从计算治理的角度来看★ღღღ,数据中最重要的特征之一是★ღღღ,世界上绝大多数国家根本没有公共云区域★ღღღ。在拥有一个或多个云区域的39个国家中★ღღღ,有30个国家的云区域支持GPU★ღღღ。
另一个显著特征是★ღღღ,即使在那些拥有支持GPU的云区域的国家内★ღღღ,区域的地理分布也是高度极化的★ღღღ:中国和美国合计拥有的区域数(49个)几乎与世界其他国家的总和(52个)相当★ღღღ。在这两者中雷电将军乳液voiux★ღღღ,中国的GPU支持区域总数略高(27个)于美国(22个)★ღღღ。
进一步的分析可以通过考察每个国家所提供的GPU实例类型来进行★ღღღ。最明显的模式是★ღღღ,美国不仅在不同类型实例的可用比例上拥有世界上最新和最强大的GPU★ღღღ,在*数量上也是如此★ღღღ。美国是*一个提供2020年Nvidia A100 GPU的区域多于2017年V100 GPU的国家★ღღღ。美国还拥有多个提供2023年Nvidia H100 GPU的区域★ღღღ。中国的云区域主要基于V100★ღღღ,少数区域提供A100实例★ღღღ。中国没有任何区域提供H100★ღღღ。全球其他地区仅有15个国家提供A100★ღღღ,只有一个国家提供H100★ღღღ,其余的区域纯粹基于V100★ღღღ。
此分析没有考虑自定义加速芯片(如TPU)★ღღღ,也没有考虑不同区域内可用的GPU数量的差异★ღღღ。访谈信息提供者指出★ღღღ,不同区域内可用的同类型GPU数量可能在不同区域和提供商之间差异显著★ღღღ。一位信息提供者指出★ღღღ:“超大规模云服务提供商在计算或存储方面几乎给人一种无所不能的印象★ღღღ,似乎可以处理你带来的任何问题★ღღღ。但这并不完全是现实★ღღღ。”在某些情况下★ღღღ,某一区域内可用的GPU数量可能非常有限★ღღღ,导致只有有限数量的客户可以在该区域运行GPU实例★ღღღ,或者只能在合理的时间内训练较小规模的模型EPF壹定发★ღღღ,★ღღღ。
目前认为AWS和Microsoft拥有*规模的云GPU集群★ღღღ,但“在这方面★ღღღ,区域之间*不相同”★ღღღ。不过★ღღღ,GPU数量及其在提供商区域内的分布被超大规模云提供商视为高度机密的信息★ღღღ。我们的信息提供者中没有人愿意或能够提供具体的数据★ღღღ,也无法指出如何公开获取这些信息★ღღღ。但普遍认为★ღღღ,美国地区的GPU数量可能比世界其他拥有同类GPU的区域要大得多★ღღღ。中国的区域可能也会有更多的V100芯片★ღღღ,以弥补其相对较低的性能★ღღღ。我们的访谈表明★ღღღ,即使可以在此分析中纳入每个区域的GPU数量★ღღღ,这可能也不会挑战上述的主要模式★ღღღ,反而更可能强化这些模式★ღღღ。
美国在先进的公共云AI计算方面的*优势相较于中国和其他国家雷电将军乳液voiux★ღღღ,背后有什么原因?一个显而易见的解释是美国政府的出口管制★ღღღ,禁止向中国出口A100和H100芯片★ღღღ。中国的云提供商在2023年出口管制生效前★ღღღ,能够进口一些A100芯片★ღღღ,但H100自产品发布以来就一直受到出口管制★ღღღ。同样★ღღღ,H800和A800芯片在推出后不久也被纳入出口管制★ღღღ。性能远不如这些芯片的V100是中国最常见的Nvidia GPU实例类型壹定发手机在线游戏网址★ღღღ,因为它不受出口管制的限制壹定发游戏最新网站★ღღღ!★ღღღ。
然而★ღღღ,出口管制无法解释为什么除了中国之外的其他国家也主要部署了旧款GPU★ღღღ。几种解释是可能的★ღღღ。一个简单的解释是创新扩散的摩擦★ღღღ,指的是GPU在市场上扩散的过程★ღღღ。较新的GPU可能首先被安装在美国★ღღღ,因为Nvidia总部位于美国★ღღღ,因此在美国的分销网络最为强大★ღღღ。随着时间的推移★ღღღ,先进的GPU应该逐步扩散到相对较远的市场★ღღღ。“我假设几乎所有的GPU最初都进入了北美区域★ღღღ,但现在欧洲应该也有了相当规模的集群★ღღღ,”一位信息提供者推测★ღღღ。
美国云计算*的另一个潜在解释来自于初始需求结构上的地理差异★ღღღ,这与规模经济相结合★ღღღ,形成了一种“路径依赖”★ღღღ,从而维持了AI计算集中在某些地理区域的状况★ღღღ。一位信息提供者解释道★ღღღ:“很少有云计算买家真正从事开创性的AI开发......所以没有必要在各地分散能力......你需要几个超级集群★ღღღ,形成某些地点的计算能力临界质量★ღღღ,没必要在每个地方复制这种能力★ღღღ。”
最早集中进行大规模AI模型训练的公司和研究人员出现在美国★ღღღ,因此云提供商将最强大的训练计算能力集中在那里★ღღღ。但即便全球其他地方对计算的需求在增加壹定发app下载★ღღღ。★ღღღ,这并不必然转化为本地计算基础设施的相应增长★ღღღ,因为开发人员通常可以将训练任务发送到美国的云区域★ღღღ,而不会遭遇显著的性能损失★ღღღ。于是★ღღღ,美国最初的计算*地位得以持续雷电将军乳液voiux★ღღღ。
信息提供者认为★ღღღ,用于部署AI的计算能力的情况有所不同★ღღღ。在许多AI用例中★ღღღ,例如语音助手★ღღღ,如果用户与服务器之间的距离过大★ღღღ,用户体验可能会受到延迟的影响★ღღღ。数据传输成本也可能成为一个业务问题★ღღღ。因此★ღღღ,这类应用*部署在离用户更近的计算基础设施上★ღღღ。这也解释了为什么性能不足以用于训练的V100芯片——尽管速度较慢但仍适用于推理任务——在全球范围内的分布比更先进的芯片更加均匀★ღღღ。
然而★ღღღ,也有一些例外情况与美国拥有*进GPU的普遍模式不符★ღღღ。日本★ღღღ、英国和法国每个国家都有与V100支持区域数量相同的A100支持区域壹定发手机在线游戏网址★ღღღ。这些国家都有显著的本地AI开发活动★ღღღ。可能存在使本地开发者无法将数据发送到美国进行训练的法规或政治障碍★ღღღ。一位信息提供者指出★ღღღ:“目前★ღღღ,有些公共部门或重要的欧洲参与者需要用无法离开欧洲的数据训练GPT-4级别的模型......如果超大规模云提供商没有响应这一需求★ღღღ,我会感到惊讶★ღღღ。”
在这一背景下★ღღღ,信息提供者提到了有关“数字主权”★ღღღ、“数据主权”和“计算主权”的政策讨论★ღღღ,这可能会创造对本地训练计算需求的增加★ღღღ。荷兰和爱尔兰也拥有小而相对先进的GPU阵容★ღღღ。这可能与这些国家作为一些超大规模云提供商基础设施枢纽的战略地位有关★ღღღ。值得注意的是★ღღღ,荷兰是美国之外*一个拥有H100 GPU的云区域的国家★ღღღ。
本研究的重点是公有云计算★ღღღ,这是一种重要但并非*的计算来源★ღღღ。在公有云计算中壹定发官网★ღღღ,★ღღღ,我们的数据收集集中于Nvidia的GPU和六大*的超大规模云服务提供商★ღღღ。
不同类型的大规模计算提供商的相对地位是否会发生变化★ღღღ,挑战当前观察到的计算地理格局?GPU集群作为昂贵的资本品★ღღღ,需要高利用率才能实现合理的投资回报率★ღღღ,这解释了为什么大规模集群主要被构建为共享基础设施★ღღღ,不论是政府拥有的(如科学超级计算)还是近年来私有的(如公有云)★ღღღ。政府拥有的计算似乎正以“国家AI计算”计划的形式在全球范围内进行小规模回归★ღღღ。例如★ღღღ,美国的国家AI资源(NAIR)工作组旨在创建公有计算基础设施以“民主化AI研究”(★ღღღ。然而★ღღღ,许多情况下政府的投资规模似乎不足以真正挑战超大规模云服务提供商的主导地位★ღღღ。许多最近的政府努力也是在与这些超大规模云服务商的合作下进行的★ღღღ,实际上这些项目依赖于私有基础设施★ღღღ。
欧洲高性能计算联合体的新LUMI超级计算机提供了一个反例★ღღღ。LUMI位于芬兰Kajaani★ღღღ,由欧盟成员国政府合作建立★ღღღ,由Nvidia的竞争对手AMD设计的11,912个GPU组成集群★ღღღ。其规模可能会成为AI开发基础设施方面私有“公有”云计算基础设施的一个严肃替代方案★ღღღ。鉴于它位于欧盟★ღღღ,它并未挑战图2中显示的南北计算鸿沟★ღღღ。然而★ღღღ,它可能有助于打破美中两国作为*AI超级大国的两极形象★ღღღ。
新的私有计算集群也在增长★ღღღ。Google的TPU可能占据了相当大比例的AI计算★ღღღ。AWS和微软都计划生产自己的芯片★ღღღ。Meta宣布将大规模投资建设私有计算能力★ღღღ:首席执行官马克·扎克伯格声称将投资34万颗Nvidia H100和A100★ღღღ。2023年★ღღღ,微软声称花费数亿美元用于为OpenAI的ChatGPT聊天机器人提供动力的集群★ღღღ。大型科技公司可能仅凭其内部和合作伙伴的需求就能实现大规模集群的高利用率★ღღღ。但最初部署为私有的集群在内部需求减少后★ღღღ,可能会转变为共享的云基础设施★ღღღ。这模糊了私有和公有(如公共住房)云计算能力之间的区别★ღღღ。
通过计算来治理AI是一个有力的理念★ღღღ,因为计算由大型★ღღღ、可观察的物质基础设施组成★ღღღ。这些基础设施必须物理地位于某个地方★ღღღ,因此容易受到领土管辖权的影响★ღღღ,而领土管辖权是所有国家——无论大小——*执行力的管辖形式★ღღღ。然而研究显示★ღღღ,计算基础设施并未均匀分布在全球各地★ღღღ,它们的地理分布很大程度上决定了不同国家将计算作为AI干预点的可能性EPF壹定发手机官网★ღღღ,★ღღღ。
研究重现了两个AI超级大国陷入计算“军备竞赛”的熟悉观点★ღღღ,其中★ღღღ,美国在芯片质量方面占据优势★ღღღ,而中国试图通过数量来弥补差距★ღღღ。美国对先进GPU的出口限制似乎起到了作用★ღღღ,因为没有任何公共云提供商在中国提供2023年的H100芯片★ღღღ,也没有提供为规避这些限制而开发的H800或A800★ღღღ。同样地★ღღღ,俄罗斯和伊朗这两个受西方制裁的国家在我们的样本中也没有任何公共云AI计算设施★ღღღ。
然而★ღღღ,除了地缘政治大国竞争的观点之外★ღღღ,研究还提出了与基于计算的AI治理相关的其他概念类别★ღღღ。除了美国和中国之外★ღღღ,还有另外15个国家也拥有对AI发展最为重要的GPU★ღღღ,即A100和H100★ღღღ。这些*梯队的国家★ღღღ,除了印度之外★ღღღ,均位于所谓的“全球北方”★ღღღ。类比而言★ღღღ,将它们称为“计算北方”★ღღღ。这些计算北方国家可以利用其领土管辖权来干预AI发展★ღღღ,特别是在模型被发送到其本地公共云区域进行训练时★ღღღ。例如★ღღღ,它们可以要求算法和数据集在训练开始之前通过审计并获得符合本地规则的认证★ღღღ,从而影响进入全球市场的AI系统的类型★ღღღ。
第二梯队包括13个国家★ღღღ,它们的计算能力更适合AI系统的部署而非开发★ღღღ。除了瑞士之外★ღღღ,这些国家都位于全球南方★ღღღ,因此将它们称为“计算南方”★ღღღ。例如★ღღღ,拉丁美洲共有五个GPU支持的云区域★ღღღ,但它们没有一个配备了比2017年发布的V100更强大的GPU★ღღღ。这些国家能够利用其对计算的领土管辖权来把关哪些AI系统可以在本地部署★ღღღ,但对于AI系统开发的影响较小★ღღღ。
除了“计算北方”和“计算南方”★ღღღ,还有一个“计算沙漠”★ღღღ,用此术语指代世界上所有不具备任何公共云AI计算(无论是用于训练还是部署)的国家★ღღღ。对于这些国家而言★ღღღ,转向基于云的AI服务意味着依赖于在外国司法管辖区内开发和部署的基础设施★ღღღ。计算沙漠包括一些富裕国家★ღღღ,但也包括国际货币基金组织(IMF)分类的所有中低收入国家和低收入国家★ღღღ。计算沙漠国家的影响可能因其富裕程度而有所不同★ღღღ。沙漠中的富裕国家可能能够利用其其他优势——例如对计算北方国家的外交影响力以及足以建设政府拥有的计算能力的财富——来抵消其缺乏本地公共云AI计算的劣势★ღღღ,但计算沙漠中的贫穷国家几乎没有前景可以通过计算治理来影响AI★ღღღ。
类似于研究人员观察到学术界和工业界之间存在“计算鸿沟”★ღღღ,研究也观察到了全球计算鸿沟★ღღღ,公共云AI计算的地理分布似乎在重现全球不平等的熟悉模式★ღღღ。从1990年代中期开始★ღღღ,有关数字化的讨论提出★ღღღ,成功进入新的全球“知识经济”将基于知识和创造力等非物质资产★ღღღ,而不再依赖于工业经济时代所需的物质资产和资源★ღღღ。这意味着发展中国家可以跳过昂贵的基础设施投资★ღღღ,直接进入基于知识的经济模式★ღღღ。然而★ღღღ,今天关于AI的讨论再次强调了芯片制造厂★ღღღ、数据中心和电力网络等物质基础设施对于国家竞争力的关键作用★ღღღ。如果计算成为一个关键的治理节点★ღღღ,那么这些物质基础设施可能也会被证明对于保持独立的监管权力至关重要(Lehdonvirta 2023)★ღღღ。因此★ღღღ,一个国家的计算能力在某种程度上也等同于其政治权力壹定发手机在线游戏网址★ღღღ。
这种情况会发生变化吗?如果高端AI计算集中在美国和“计算北方”只是由于创新扩散过程中的摩擦所致★ღღღ,那么随着时间的推移★ღღღ,全球可能会逐渐充满计算能力★ღღღ,缩小这种差距★ღღღ。Nvidia的竞争对手★ღღღ,如AMD和英特尔★ღღღ,正在芯片性能方面追赶★ღღღ。中国厂商也在开发AI处理芯片★ღღღ,并且由于美国的出口控制★ღღღ,中国国内对其需求巨大★ღღღ,再加上政府的支持★ღღღ,这种差距可能会逐步
但是★ღღღ,如果观察到的地理模式更多是由先行者优势和规模经济导致的路径依赖解释的★ღღღ,那么地理集中★ღღღ、区域专业化以及国际劳动分工可能将成为计算生产的持久特征★ღღღ,正如在许多其他行业中一样雷电将军乳液voiux★ღღღ。
谁拥有了最多的GPU?这个问题的答案似乎早已呼之欲出★ღღღ,但在这一问题的背后雷电将军乳液voiux雷电将军乳液voiux★ღღღ,本质上是算力的不均匀分布★ღღღ。而如何改善算力的不平衡★ღღღ,让处于计算荒漠的更多人享受到AI所带来的便利雷电将军乳液voiux★ღღღ,恐怕短时间内是很难解决的了★ღღღ。