全国咨询热线:021-54902525
您的当前位置: 首页 > 雷竞技登录

CXL新蓝海!

日期:2023-10-25  来源:雷竞技登录

  CXL 全称为 Compute Express Link,是一种开放式行业互连标准,可在主机处理器与加速器、内存缓冲区和智能 I/O 设备等设备之间提供高带宽、低延迟连接,从而满足高性能异构计算的要求,并且其维护 CPU 内存空间和连接设备内存之间的一致性。

  CXL 的发展突飞猛进,仅问世四年时间来,就已经公布了三代规格,且 CXL 的吸引力正在攀升。

  CXL 的目标旨在实现计算、内存和存储资源的动态分配,通过在 CPU 和加速器之间提供共享内存的高速通道,使得这些设备能更有效地一起工作,提高数据中心的性能和效率。

  实际上,早在二十年前,英特尔就公布了一种取代 PCI 总线的第三代 I/O 技术,也就是我们现在常说的 PCI-e(PCI Express)。凭借高性能、高扩展性、高可靠性及出色的兼容性,PCIe 几乎取代了以往所有的内部总线,成为当时众望所归的未来技术标准。

  但在如今的大数据时代,随着云计算、人工智能、高性能计算等技术的发展,处理器的算力不断地在提高,处理器的核心数也慢慢变得多,这也推动了对内存大容量、高带宽的需求。一方面需要更大容量的内存,一方面又需要高带宽的内存访问能力,如何增加内存的带宽和容量,成为行业挑战。

  对此,PCIe 已经开始出现后继无力的现象,无法成为 CPU、GPU、FPGA 以及其他 AI 计算设备之间沟通的最佳语言。为了达到最佳的计算效果,不同的计算设备亟需 一种新语言 。

  在 CXL 之前就有以 IBM 牵头的 OpenCAPI,ARM 为代表支持的 CCIX,AMD 等支持的 GenZ 和 Nvidia 自行提出的 Nvlink 等多种协议。但英特尔推出的 CXL 技术标准再次杀出重围,得到了半导体行业大多数买家的支持,开始越来越热。

  CXL.io:这种模式可以将内存扩展到外部设备,使得数据的传输速度更快。CXL.io 通过 PCIe 总线连接 CPU 和外部设备,这样 CPU 就可以与外部设备共享内存,并且可以直接访问外部设备的 I/O 资源;

  CXL.cache:这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache 模式允许 CPU 在本地缓存中保留最常用的数据,而将不常用的数据保存在外部设备中。这样可以减少内存访问时间,提高整体系统性能;

  CXL.memory:该协议使主机(例如处理器)能够使用加载 / 存储命令访问设备连接的内存。该模式可以将外部设备作为主内存使用,从而实现更大的内存容量。

  src=凭借 CXL 在 CPU 和设备(例如加速器、内存扩展和持久内存设备)之间的高带宽和低延迟缓存一致性连接,CXL 有可能重塑数据中心内存的性能、可扩展性和灵活性。通过解决 AI/ML 应用程序面临的常见内存挑战并启用新的高性能内存架构,CXL 有望成为以数据为中心的计算的下一代互连标准。

  云计算强调资源可以像水和电一样按需获取,云计算的技术潮流下,追求不同资源之间的松耦合,以提高使用效率,实现相同资源的池化。

  同时,也还增加了 CXL switch 功能,它可以在一个机架内通过一套 CXL 交换机构建成一个网络。

  首先,CXL 3.0 建立在 PCIe 6.0 规范之上,其速率从 32GT 提升到了 64GT,在相同的链路时,带宽翻倍。并且,Latency 也没有任何变化。

  此外,CXL 3.0 新增了对二层交换机的支持,也就是 Leaf spine 网络架构,可以更好地对资源进行解耦和池化,做更多的资源池,比如 CPU 资源池、内存资源池、网卡资源池和加速器资源池等,交换机之间可以构建各种网络拓扑和路由方式。

  Memory sharing 是非常大的一个亮点,这种能力突破了某一个物理内存只能属于某一台服务器的限制,在硬件上实现了多机共同访问同样内存地址的能力。可以说,CXL 的内存一致性得到很大的增强。

  CXL 3.0 不但可以更好地在一个机柜内实现计算资源和存储资源的池化和解耦,而且还可以在多个机柜之间建立更大的资源池,如此一来,对于云计算服务商的资源管理效率和成本优化都会带来很大帮助。

  src=可见,在 CXL 规范演进中最重要的变化与内存有关,因为 CXL 将解耦内存。在最初的版本中,CXL 将内存(或持久内存)与处理器进行点对点连接;CXL2.0 引入了交换机,使多达 16 个主机可以访问多个内存实体,以进一步支持解耦,从服务器级别提升到机架级别的连接;CXL3.0 技术使多个主机可以共享内存而无需考虑一致性问题。

  首先,CXL 兼容性很高,支持 PCIe 接口的处理器基本都可以使用;其次,CXL 的一大优势就是内存一致性,CXL 可在 CPU、GPU、FPGA 等之间建立高速且低延迟的互连,维护内存之间的一致性,连成一个庞大的堆栈内存池,共享、互取对方的内存资源,这样可以有效降低延迟,大幅提升数据运算效率。

  此外,CXL 还可以向 CPU 主机处理器添加更多内存,支持大容量工作负载的性能。

  凭借诸多优势,CXL 技术的应用场景非常广泛,其中包括数据中心、人工智能和处理器互联等领域。在数据中心领域,CXL 技术可以将不同的计算和存储资源进行互联,提高系统性能和效率;在人工智能领域,CXL 技术可以使 GPU 和 FPGA 等加速器更好地与主处理器进行协作,提高 AI 模型训练和推理的速度;在处理器互联方面,CXL 技术可以实现不同厂商的处理器之间的互联,提高系统的整体性能和灵活性。

  尤其是在数据中心领域,数据中心存在着严重的内存问题。自 2012 年以来,处理器芯片核心数量迅速增长,但每个核心的内存带宽和容量并没有相应增加,反而有所下降,并且这种趋势还在持续。此外,直连 DRAM 和 SSD 之间在延迟和成本方面存在巨大差距。

  同时,还有一个致命的问题是,昂贵的内存资源往往利用率很低,这对于资本密集型行业来说问题突出。 微软表示,服务器总成本的 50% 来自 DRAM,成本巨大,尽管如此,还有高达 25% 的 DRAM 内存被闲置了。

  如果用 CXL 来做池化,意味着单节点服务器可以部署较少的内存,大部分的内存可以从服务器当中解耦出来,通过 CXL 技术,形成一个内存池,连接到多个服务器上。

  在使用中,通过 Switch 将内存动态地分配到有需要的服务器上,从而可以大大提高内存的使用效率,使得数据中心用较低的内存成本,能够满足实际业务的需求。

  高性能计算:CXL 可以提供比传统 PCIe 更快的数据传输速度和更低的延迟,从而提高高性能计算的效率和吞吐量。

  存储加速:CXL 可以将存储加速器与主机 CPU 直接连接,从而实现更快的数据访问和更高的 IOPS,提高存储性能。

  AI 加速:CXL 可以将 AI 加速器与 CPU/GPU/FPGA 等处理器直接连接,实现更快的模型训练和推理速度,提高人工智能应用的性能。

  大规模虚拟化:CXL 可以将多个 CPU 和内存资源组合成一个大规模虚拟化集群,从而提高资源利用率和灵活性,并降低虚拟化管理的复杂性。

  src=业界认为,CXL 将成为实现下一代数据中心最佳资源利用的重大变革者。行业机构 Yole 日前指出,在服务器内存的行业挑战和市场机遇下,预计 2028 年全球 CXL 市场规模将达到 158 亿美元。其中 DRAM 将占 CXL 市场收入的大部分,到 2028 年市场收入将超过 125 亿美元。

  从目前整体来看,CXL 来势汹汹。在 CXL 技术推出的那一年,CXL 联盟也随之成立,由英特尔牵头,联合阿里巴巴、戴尔 EMC、Meta、谷歌、HPE、华为和微软共同建立,随后 AMD、Arm 加入其中。

  目前,CXL 联盟扩展出超过 165 个成员,几乎涵盖了所有主要的 CPU、GPU、内存、存储和网络设备制造商。而在技术上,从 2021 年成功 吞并 Gen-Z 和 Open CAPI 后,CXL 的崛起势头越发强劲,国内外芯片大厂加速布局。

  AMD:AMD 的 EPYC Genoa 支持 DDR5、PCIe 5.0 以及 CXL1.1 接口。其另一产品 Bergamo 拥有更高的电源效率和每插槽性能,与 Genoa 支持相同的 CPU 接口。此外,AMD 在研讨会中透露其计划在 3~5 年内将 CXL 技术导入消费级 CPU。这意味着会将持久内存技术带到内存总线上,以进一步提高 CPU 性能。利用 CXL 内存模块和系统内存共享大型内存共享池概念,可获更高性能、更低延迟、以及内存扩展功能。

  Arm:作为开始在服务器和数据中心上抢夺 x86 份额的架构,Arm 自然是早早就开始了 CXL 的布局,从 Neoverse 的第二代的产品中,全部都加入了 CXL2.0 的支持。下一代产品线在提升性能和效率的同时,预计也会增加对 CXL3.0 的支持。

  三星:在存储产业链中,三星布局最早且最为完善,早在 2021 年 5 月就推出了基于 DDR5 技术支持 CXL1.1 互联标准的内存模块,并随后发布了首款支持 CXL 内存平台设计的开源软件解决方案。三星后续又研发出其首款支持 CXL2.0 的 128GB DRAM,预计将加速下一代存储解决方案的商用化。另外,三星还研发出了业界首款 CXL 标准内存语义 SSD。此外,三星现在正在构建定制 AI 芯片,利用包括内存处理、近内存处理和 CXL 在内的一系列技术来解锁性能和效率方面的新门槛。

  SK 海力士:SK 海力士也是一个在 CXL 背景下反复出现的名字。SK 海力士也将于今年量产基于最新的 1 α 节点的 DDR5 CXL 产品。去年底,SK 海力士还开发了 DDR6 CXL 计算存储器解决方案,成为业界第一个在 CXL 内存芯片中引入计算功能的解决方案。此外,SK 海力士还为内存扩展、服务器内存、计算内存等应用场景做好了规划,根据用户需求进行部署。

  美光:美光是 CXL 市场中最响亮的声音之一。也于今年 3 月推出了 CXL2.0 标准的内存模块,这些模块可为服务器提供更容易获取的,低成本的 DRAM 内存。预计会在 2024 年正式发布。

  另外,在支持 CXL 的附加卡、背板和内存模块等设备中,还需配置内存扩展控制器。不难理解,CXL 并非一种新的内存制造技术,各大内存厂商造出的 DDR4、DDR5 服务器内存其实不会存在太大变化,但之所以能够通过 CXL 实现内存扩展,主要靠的还是全新的控制器芯片。

  Microchip:2022 年 8 月,Microchip 宣布扩大旗下串行连接存储控制器产品阵容,推出基于 CXL 的新型 SMC 2000 系列智能存储控制器,使 CPUGPU 和 SoC 能够利用 CXL 接口连接 DDR4 或 DDR5 存储器。该方案可为每个内核提供更大的存储带宽和更高的存储容量,并使现代 CPU 能够优化应用工作负载,从而降低数据中心的整体总拥有成本。

  Rambus:2021 年 6 月,Rambus 推出了 CXL 内存互连计划,并宣布与包括云、系统和内存企业在内的生态体系达成合作,以加快 CXL 内存互连解决方案的开发和落地。当年 10 月,Rambus 发布了 CXL2.0 控制器。Rambus 在并购方面也有新进展:2021 年 6 月,Rambus 宣布完成对 AnalogX 和 PLDA 的收购,增强了公司在服务器内存接口芯片方面的领先地位,加速了为下一代数据中心提供创新 CXL 互连解决方案的路线图。去年几乎与美满电子同期,Rambus 又宣布已签署收购 Hardent 的协议,该交易为 Rambus CXL 内存互连计划提供了关键资源,加速了下一代数据中心的 CXL 处理解决方案的开发。

  MXC 芯片能够为处理器提供高带宽、低延时的内存访问,实现高效的内存资源共享,降低系统软件栈的复杂度,降低数据中心总体内存的成本。

  在三星的发布的首款 512GB CXL DRAM 内存中,就用到了澜起科技的 MXC 芯片;SK 海力士发布的 DDR5 DRAM CXL 内存,同样用到了 MXC 芯片;澜起科技还会与美光合作,推出基于该芯片的 CXL 内存模组。

  今年 8 月,澜起科技的 MXC 芯片成功通过了 CXL 联盟组织的 CXL1.1 合规测试,被列入 CXL 官网的合规供应商清单,成为全球首家进入 CXL 合规供应商清单的 MXC 芯片厂家。

  未来,澜起将继续深化与 CPU 厂商、存储器厂商、云服务厂商及服务器 OEM 的合作,不断推进产品更新迭代,致力于为实现 CXL 生态的成熟完善和 CXL 技术的广泛应用不断贡献力量。

  此外,IBM、Synopsys、Marvell、Astera Labs、MemVerge、世迈科技、威刚和其它多家产业链上下游公司也正在积极加入 CXL 赛道,我们将看到该名单在未来将继续增长。

  众所周知,内存离 CPU 越远,延迟就越高,这就是内存 DIMM 通常尽可能靠近插槽的原因。最大限度的降低延迟是业界一直致力于解决的问题,因此,业界对于 CXL 技术也是抱有较高期待。

  作为一个分布式内存,尽管 CXL 主打的是低延迟,但其与 CPU 原生的内存、缓存和寄存器比起来,延迟仍然有着一定差距的。

  CXL 虽然在带宽和容量之间找到了很好的定位,但内存延迟问题对于消费市场来说可能影响微乎其微,在数据中心上就会被无限放大。目前微软 Azure、Meta 等公司都已经发表了一些公开数据,在测试下,20% 的负载都没有任何性能影响。这说明大部分负载还是得承受一些小小的牺牲,才能享受 CXL 带来的优势。

  另外值得一提的是,Meta 和 AMD 的两位专家也提出了一个概念,就是对内存进行分层,分为用于实时分析等关键任务的 热 内存、访问不那么频繁的 暖 内存和用于庞大数据的 冷 内存。 热 内存页面放在原生 DDR 内存里,而 冷 内存页面则交给 CXL 内存。

  然而在当前的软件分不清楚什么是 热 内存和 冷 内存,原生内存用完后,就开始去占用 CXL 内存,如此一来原本作为 冷 内存的 CXL,也开始变成 热 内存。所以目前最大的挑战就是在操作系统和软件层面,如何检测到 冷 内存页面,将其主动转入 CXL 内存里,为原生内存留出空间。

  面对行业这一担忧,从当前服务器市场情况来看,低核心数的 CPU 依然会继续使用原生 DDR 通道来配置 DIMM 内存。而只有高核心数 CPU 上,再根据系统成本、容量、功耗和带宽等参数来灵活应用 CXL 内存,因为这才是 CXL 的核心优势。

  未来,我们将看到更多支持 CXL 的技术推向市场,CXL 将继续为高性能存储助力,并大规模部署。

  数据的爆炸式增长促使计算行业开始突破性的架构转变,从根本上改变数据中心的性能、效率和成本。为了继续提高性能,服务器正慢慢的变多地转向异构计算架构。

  IDC 预计,在 2024 年全球每年所产生的数据量会高达 160ZB,如何处理这些数据是一个非常大的挑战。

  src=对此,CXL 技术的出现不仅提供了高速传输,还支持内存共享和虚拟化,使设备之间的协作更加紧密高效。

  作为一项崭新的技术,CXL 发展可谓非常迅速,过去四年时间 CXL 已经推出了 1.0/1.1、2.0、3.0 多个版本,并且有着非常清晰的技术发展路线图。随着各大厂家对 CXL 技术布局的愈发完善,一幅关于未来数据中心领域的发展图景也愈发清晰。