(原标题:英伟达投资了一家芯片“竞争敌手”)
如果您但愿不错通常碰头,接待标星保藏哦~
Enfabrica Corp.,一家备受属想法初创公司,正在AI鸿沟掀翻波浪。客岁9月,该公司在B轮融资中筹集了1.25亿好意思元,并诱导了AI巨头英伟达的投资,这算是英伟达的一个竞争敌手,因为这家初创公司研发的AI网罗芯片被业界以为有望对英伟达旗下的Mellanox处罚决策组成挑战。而就在本月,Enfabrica再次完成C轮融资,得回了包括Arm、想科、三星等巨头的1.15亿好意思元的资金救助。那么,是什么让Enfabrica脱颖而出,诱导了如斯多行业巨头的抓续趣味?
Enfabrica是谁?
Enfabrica这家初创公司配置于2020年,由 Sutter Hill Ventures 资助,由首席本质官Rochan Sankar、首席开发官 Shrijeet Mukherjee以偏激他工程师创立。该公司创立之初的基本理念是数据中心的网罗结构必须窜改,因为底层蓄意范式正在发生变化:愈加并行、加快、异构和数据移动密集。
图源:Enfabrica
直到 2023 年 3 月,该公司才运行被行业明白。Enfabrica也被The information评为是2024年最有出路的50家初创公司。
不外配置仅4年,该公司却得回了一众老本的招供:
2023年9月,Enfabrica晓示融资1.25亿好意思元,B 轮融资由 Atreides Management 领投,现存投资者 Sutter Hill Ventures 参投,新救助者包括 IAG Capital Partners、Liberty Global Ventures、Nvidia Corp.、Valor Equity Partners 和 Alumni Ventures。
2024年11月19日,该公司晓示筹集了1.15亿好意思元可不雅的新现款注入,其C轮融资由 Spark Capital 领投,加入此轮融资的新投资者包括 Arm、Cisco Investments、Maverick Silicon、Samsung Catalyst Fund 和 VentureTech Alliance。客岁参与 B 轮融资的现存投资者 Atreides Management、Sutter Hill Ventures、Alumni Ventures、IAG Capital 和 Liberty Global Ventures 也参与了这次融资。
跟着OpenAI的ChatGPT等大言语模子的兴起,对生成式AI应用以及现在的AI代理产生了巨大的需求,这家初创公司当令推出了其AI网罗互连芯片——ACF-S(Accelerated Compute Fabric-Switch,加快蓄意结构交换机)。ACF处罚决策是从新运行发明和开发的,旨在处罚GPU网罗痛点以及内存和存储扩张问题等加快蓄意的扩张挑战。包括英伟达在内的著名投资机构对Enfabrica的跋扈救助,进一步施展注解了其期间的营业可行性和潜在价值。
网罗推敲,需要窜改了
在当代AI处事器和数据中心中,存在多种推敲期间,可能许多东说念主会有所迂缓,在此作简便科普。普通咱们所说的PCIe、英伟达的NVLink、AMD的Fabric这些主若是用于处事器与处事器之间的纵向推敲。而网罗期间则是指用于多个处事器横向推敲,举例AI老练集群中的多节点通讯。
AI老练经过由通常的蓄意和通讯阶段轮流组成,其中下一阶段的蓄意需要恭候通讯阶段在整个GPU之间完成后智商启动。通讯阶段的尾部蔓延(tail latency,即终末一条讯息到达的时候)成为通盘系统性能的重要想法,因为它决定了整个GPU是否能同步插足下一阶段。在这也曾过中,网罗的蹙迫性愈发突显,网罗通讯需要好像传输更多的数据。若网罗性能不及,这些高成本的蓄意集群将无法被充分期骗。而且,推敲这些蓄意资源的网罗必须具备极高的后果和成本效益。
在高性能蓄意(HPC)网罗中,Infiniband、OmniPath、Slingshot是几个横向推敲期间决策。
其中Infiniband主要由NVIDIA(通过其Mellanox子公司)主导,是HPC鸿沟最纯熟的网罗期间之一。它以极低的蔓延和高带宽著称,救助良友平直内存拜访(RDMA),庸俗应用于超等蓄意和AI老练。该期间成本较高,部署和爱戴复杂性较高。目下,Nvidia 是 InfiniBand 芯片的最大卖家。举例,英伟达的ConnectX-8 InfiniBand SuperNIC救助高达800Gb/s的InfiniBand和以太网网罗推敲,好像运行数十万台GPU。
英伟达的ConnectX-8 InfiniBand SuperNIC
(图源:英伟达)
OmniPath是由英特尔推出的一种高性能网罗期间,旨在与Infiniband竞争,天然英特尔于2019年住手平直开发,但Cornelis Networks继承了该期间,连接发展。比较Infiniband,OmniPath的硬件和部署成本更低,合适中型HPC集群。但OmniPath的商场份额有限,生态系统不如Infiniband纯熟,期间更新速率较慢。
Slingshot是由Hewlett Packard Enterprise(HPE)旗下的Cray开发的高性能网罗期间。其特色在于与以太网的兼容性,合适羼杂HPC和企业责任负载的场景。不外,Slingshot尚未在商场中被大鸿沟应用,商场接受度和应用案例还有待不雅察。
不外与HPC网罗比较较,AI对网罗需求建议了更高的条目,已从起先的高性能蓄意条目转向构建可在加快蓄意集群之间提供一致、可靠、高带宽通讯的系统,这些集群现在有 10,000 个节点或更大,况兼需要以雷同云的处事的格式提供。
为了冲破InfiniBand的阁下,以太网正逐步成为有劲竞争者。以太网虽发祥于通用网罗期间,但其庸俗的生态系统、低成本和渐渐增强的性能,使其在HPC和AI横向推敲期间中崭露头角。以太网的上风在于生态纯熟和成本效益,但在蔓延和专费力能上仍需发奋。因而客岁,超等以太网定约(UEC)配置,该定约的宗旨是“新的时间需要新的网罗”,UEC对新网罗的界说是:性能堪比超等蓄意互连、像以太网相似无处不在且经济高效、与云数据中心相似可扩张。UEC的创举成员包括AMD、Arista Networks、Broadcom、想科系统、Atos 的 Eviden 分拆公司、惠普企业、英特尔、Meta Platforms 和微软。值得一提的是,自后英伟达也加入了这一定约。
起首:超等以太网定约(UEC)
整个这些网罗期间通常依赖于专用的网罗接口卡(NIC)和交换机。现时,AI处事器的网罗组件如NICs、PCIe交换机和Rail Switches,大皆像“烟囱式”(stovepipes)结构相似单独存在(如下图所示),互相之间缺少搭伙调解,网罗带宽不及,缺少可靠的容错机制,难以卤莽AI老练和推理经过中巨大的数据流量。
图源:Enfabrica
这么的结构特色还带来了诸多痛点:如在GPU之间传输数据时容易产生拥挤,数据在网罗中需要经过多个征战跳转,增多了蔓延;网罗负载散播不均,可能导致“入汇拥塞”(incast),即渊博数据同期到达某少量时激励的瓶颈;此外,碎屑化和低后果的网罗瞎想导致AI集群的总成本(TCO)显贵增多,因为存在GPU和蓄意资源闲置的情况,形成资源迫害与带宽期骗率低,GPU间的链路如果发生故障,会导致通盘任务停滞,影响系统的可靠性和自由性。
行业变革日眉月异,现在GPU已经取代CPU成为AI数据中心的中枢处理资源,GPU和加快器蓄意基础设施的老本开销在群众整个顶级云提供商中占据传统蓄意开销的主导地位——这一切皆归功于生成式 AI 的商场后劲。但值得细心的是,目下部署在这些系统中的网罗芯片,包括推敲加快蓄意的PCIe交换机、NIC网罗接口限制器和机架顶交换机,依然是为传统x86蓄意架构时间瞎想的产物。这些征战上 I/O 带宽的滞后已经成为AI扩张的瓶颈。
网罗芯片,也需要与时俱进了。本文咱们所面目的Enfabrica公司,他们开发的ACF-S期间有望在这一鸿沟占据一隅之地。
取代多种网罗芯片,
ACF-S芯片要“革互连的命”
Enfabrica的ACF-S是一种处事器结构芯片,它不使用行业模范的PCIe交换机和具有RDMA 的以太网网罗接口卡 (NIC),而是将CXL/PCIe交换功能和RNIC(良友网罗接口卡)功能集成到单一征战中,也等于不再需要PCIe、NIC(网罗接口限制器)或独处的CPU推敲DRAM,而且这种秩序排斥了对CXL高档功能的依赖。这种架构和想路与超等以太网(UEC)白皮书所意见的整个方面皆需要加快器、NIC 和交换机结构之间的调解殊途同归。
图源:Enfabrica
Enfabrica 首席本质官 Rochan Sankar暗意:“这不是CXL架构,不所以太网交换机,也不是DPU——它不错作念整个这些事情。这是一类不同的产物,不错处罚不同类别的问题。”
据了解,Enfabrica的ACF-S继承100%基于模范的硬件和软件接口,包括原生多端口800千兆以太网网罗和高基数PCIe Gen5和CXL 2.0+接口。该结构可平直桥接和互连GPU、CPU、加快器、内存和网罗等多样征战,在这些征战之间提供可扩张、流式、每秒多TB的数据传输。它将排斥对专用网罗互连和传统机架顶部通讯硬件的需求,充任通用数据移动器,克服现存数据中心的I/O狂妄。
也等于说,ACF-S无需窜改征战驱动门径之上的物理接口、合同或软件层,即可在单个硅片中罢了异构蓄意和内存资源之间的多TB交换和桥接,同期大幅减少现在 AI 集群中由机架顶部网罗交换机、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL交换机和推敲 CPU的DRAM所虚耗的征战数目、I/O 蔓延跳动和征战功率。
通过链接特有的CXL内存桥接功能,Enfabrica的ACF-S成为业内首款可为任何加快器提供无头内存扩张的数据中心硅产物,使单个GPU机架好像平直、低蔓延、无争用地拜访腹地CXL DDR5 DRAM,其内存容量是GPU原生高带宽内存 (HBM) 的50倍以上。
成本亦然这家初创公司的卖点之一。这是由于勤俭了购买NIC和PCIe交换机的用度。据该公司称,Enfabrica的旗舰ACF交换机硅片使客户好像在交流性能点上将大型言语模子 (LLM) 推理的GPU蓄意成本裁汰约50%,将深度学习保举模子 (DLRM) 推理的GPU蓄意成本裁汰75%。
3.2Tbps超高速,罢了50多万GPU互连
2024年11月19日,在超等蓄意 2024 (SC24) 大会上,Enfabrica晓示其突破性的3.2太比特/秒 (Tbps) ACF SuperNIC芯片“Millennium”偏激相应的试点系统 Thames全面上市。Millennium为 GPU 处事器提供多端口 800 千兆以太网推敲,带宽和多旅途弹性是业内任何其他 GPU推敲网罗接口限制器 (NIC) 产物的四倍。Enfabrica芯片将于2025年第一季度运行批量供货。
图源:Enfabrica
Millennium具有高基数、高带宽和并发 PCIe/以太网多旅途和数据移动功能,不错特有地在每个处事器系统中纵向和横向扩张四到八个最新一代 GPU,为 AI 集群带来前所未有的性能、鸿沟和弹性。Millennium 还引入了软件界说的 RDMA 网罗,将传输堆栈限制权交给数据中心运营商,而不是 NIC 供应商的固件,而不会影响线速网罗性能。
凭借单个ACF-S芯片上的800、400和100千兆以太网接口以及32个网罗端口和160个PCIe通说念的高基数,初度不错使用更高效的两层网罗瞎想构建至极50万个GPU的AI集群,从而罢了集群中整个GPU的最高横向扩张蒙胧量和最低的端到端蔓延。
2层500K+ GPU集群瞎想(跨整个网罗层的完满横截面带宽)(图源:Enfabrica)
Enfabrica信服其互联期间将成为将来GPU蓄意网罗的中枢。Constellation Research Inc. 副总裁兼首席分析师Andy Thurai暗意,Enfabrica不错为AI网罗鸿沟提供一个兴味的替代决策,目下该鸿沟由 Nvidia 偏激 Mellanox 处罚决策主导。他解释说,Enfabrica 的一个显然各异是它好像在GPU和CPU之间高速移动数据。
也就说,不仅是GPU,Enfabrica还有望窜改CPU的竞争力。Thurai 暗意:“这不错让更多公司探索使用CPU而不是GPU来开发东说念主工智能,因为GPU目下供应不及。Enfabrica的特有上风在于它使用现存的接口、合同和软件堆栈,因此无需再行推敲基础设施。”
结语
跟着AI模子老练对后果和成本效益的条目束缚训诲,网罗的蹙迫性愈发突显。据650 Group展望,到2027年,数据中心在蓄意、存储和网罗芯片高性能I/O鸿沟的硅片开销将翻倍,至极200亿好意思元。这无疑是一块极具诱导力的商场蛋糕。
英伟达等公司对Enfabrica初创公司的投资,不仅彰显了对其期间革命的高度招供,更是着眼于将来AI生态计谋布局的一步棋。要突破现时东说念主工智能鸿沟靠近的网罗I/O瓶颈,离不开应用东说念主工智能、GPU蓄意和高性能网罗鸿沟的大师之间的创造性工程瞎想和风雅合营。惟有甩掉孤单竞争,形成协力,智商共同鼓励期间进步,为行业注入新能源。
半导体杰作公众号保举
专注半导体鸿沟更多原创本体
脸色群众半导体产业动向与趋势
*免责声明:本文由作家原创。著述本体系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或救助,如果有任何异议,接待有关半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3955期本体,接待脸色。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的本体就点“在看”共享给小伙伴哦