剑指32Tbps!英特尔披露硅光集成路线图,OCI芯粒为AI基建打地桩
作者 | ZeR0 编辑 | 漠影
芯东西7月31日报道,光纤通信大会(OFC)被公认是全球光通信领域规格最高、规模最大的国际盛会,是光通信前沿技术发展的风向标。在今年的光纤通信大会上,英特尔硅光集成解决方案(IPS)团队分享了其在推动高带宽互连技术创新上取得的突破性进展——业界领先的、完全集成的OCI(光学计算互连)芯粒,与英特尔CPU封装在一起,可运行真实数据 。
面向数据中心和高性能计算(HPC)应用,英特尔打造的OCI芯粒实现了光学I/O共封装,可在最长100米的光纤上单向支持64个32Gbps通道,有望满足AI基础设施日益增长的对更高带宽、更低功耗和更长传输距离的需求。
英特尔尚未公开OCI芯粒的确切尺寸,但最近发布的照片显示了OCI芯粒与标准2号铅笔末端橡皮擦的对比。
针对OCI芯粒的更多技术细节,近日,英特尔研究院副总裁、英特尔中国研究院院长宋继强与芯东西等媒体进行了深入交流。宋继强分享了英特尔硅光集成的未来创新路线图,通过提高线速率、每条光纤的波长数、光纤数量和偏振模式,有望扩展未来几代OCI芯粒的性能,打造出带宽达32Tbps 的器件。
英特尔正在向内部和外部的不同客户提供OCI芯粒。具体的客户应用和产品要求将决定这些扩展计划的顺序和时间。
一、电气换硅光≈单车变摩托
随着生成式AI发展提速,大模型需要高计算密度、大内存容量和带宽,而且很难在单台服务器节点里部署,因此需要跨机架连接。大计算集群又意味着更长的传输距离、更高的I/O带宽要求。
宋继强谈道,AI应用对存算比的要求已经到了一个新的级别,经常需要访存,所以内存通道及延迟会影响未来如何提供大规模的应用服务。这要求探索一些新方法,在提高算力和存储密度的同时降低功耗、缩小体积,从而在一个有限的空间里,放进更多的计算和存储(芯片) 。
以前电气I/O用铜线完成芯片间的互连,铜线速率够快,功耗也低,但有效的传输距离很受限,短到1米左右 。
如果在整个数据中心建集群,还会面临集群占地面积大、线缆过长、长距离传输功耗高的问题,难以实现对高算力和节能的兼顾。一个数据中心里放了很多个服务器节点,能供的电有上限,机架里除了有芯片,还有I/O等其他地方耗电,真正分给每颗芯片的用电就很受限。
据宋继强分享,从过去二三十年来看,整个计算里I/O需要的电越来越多,如果用现在的技术、按现在的规模去增长,它会吃掉所有供给机架的电源,导致没有足够的电去做计算和存储芯片里面的读写操作,因此必须要用新的技术方案去把用于I/O这部分的电给压下去 。
英特尔将传统电气I/O比作马车,传输速度和距离都很有限;如果在100米内 实现更高密度、更灵活的数据传输,硅光集成方式就好比轻便的摩托车,既快又灵活,有效且节能;如果是超过100米 的远距离传输,使用可插拔光收发器则就像换上汽车,容量更大,而且速度够快。
光学I/O、可插拔光收发器都属于硅光互连 方案,具有低功耗优势,适合较长距离传输。
可插拔光收发器 方案相对成熟,可直接与电子集成电路(EIC)接口连接,可增加传输距离,但体积较大,通常需要高速串行器与解串器(SerDes)或数字信号处理(DSP)技术,因此功耗较高,带宽密度较低,延迟较长。
而通过使用硅光集成 技术,光学I/O能在低功耗、高带宽密度、低延迟和更长的传输距离下实现多Tbps的带宽,满足AI扩展的需求。
OCI芯粒 (或任何光学I/O解决方案)与CPU、GPU或SoC共封,可以优化和改善I/O带宽密度、总能效比、延迟和成本,还可以通过支持资源解聚的新架构(如HBM或CXL内存池化)来实现更高效的资源利用。
未来英特尔会针对不同的传输距离提供不同的方案,包括OCI光电共封装和可插拔方案。
二、和CPU联合封装,英特尔OCI芯粒如何带飞能效?
英特尔OCI芯粒是一个完整的物理层光I/O器件,包括一个带有片上密集波分复用激光器和半导体光放大器的硅光子集成电路(PIC)以及一个用于控制PIC和连接主机的EIC。
EIC的功能更接近于具体的信号怎么被使用、跟哪些部分去对接,会变成一个协议里的转换适配层。PIC更多是解决光的稳定传输,把信号调上去、发出去,可持续演进,比如在电介质和光介质之间如何完成很好的转换。
EIC采用标准CMOS工艺节点,PIC采用基于300mm硅晶圆上运行的英特尔硅光子制造工艺。通常EIC采用相对先进的制程,以接近或对齐要支持的主芯片,PIC则采用更成熟的制程。
由于没有用可插拔的方式,这样的计算部件本身功率更低,能在提高带宽和延长传输距离的同时,有效提高硅光互连的集成度,从而实现性能和能耗提升,并有助于增加集群密度。
英特尔完全集成的OCI芯粒,双向数据传输速度达到4Tbps ,并兼容第五代PCIe ,单向支持64个32Gbps通道 (宋继强说这在当前的数据中心中已经足够了),传输距离达100米 (由于传输延迟,实际应用中距离可能仅限几十米)。
它采用8对光纤,每根8波长密集波分复用(DWDM),功耗仅为每比特5pJ (皮焦耳),只有可插拔光收发器模块功耗的1/3 。
据宋继强透露,英特尔通过对器件和封装设计、制造工艺和带宽扩展的各种改进,有信心在后续几代产品中将能效降低到每比特3.5PJ 以下。
在2024年光纤通信大会上,英特尔现场进行实时光学链路演示,展示了通过单模光纤(SMF)跳线在两个数据中心CPU平台之间实现的发射器和接收器互连。
CPU生成并测量了比特误码率。两个数据中心CPU相互发送和接收数据,一个OCI芯粒和一个CPU联合封装在一起,OCI芯粒把从CPU出来的所有电气I/O信号转成了光,通过光纤,在两个数据中心的节点或系统里来回传输。
如图,两侧系统主机里是电信号,通过光电转换芯片变成光。发射器共有1.6THz光谱,包括单一光纤上200GHz间隔的8个波长,以及32Gbps发射器眼图,表明信号质量很强。
彩色部分就是光,不同颜色代表不同波长的光,在频率上有足够间隔,这样在调制和解调时不会互相干扰。这些光可以合在一起,在一根光纤上传输,即多波段可以“复用”一根光纤,跟在无线通信领域的频分复用是一回事。
因为光的带宽很大,可以选出一个比较稳定的带宽,把它切成很多个不同的波段,在人眼看来就是不同颜色的光。实际上它们是不同频率的波段,在每一个波段上可以稳定地调制要传输的信号。光电调制后,便是通过光纤传输信号。
宋继强分享了英特尔OCI芯粒的性能演进路线图,技术迭代有3个主要方向:光波的波长数、光纤的传输速率、光纤数量。
一根光纤可分成不同波段去传输,目前能保证稳定传输的是8波段,在每个波段的光里调试上去的数据传输率是32Gbps,可以同时放在一起、互相不影响的光纤对数是8对。三者相乘,就是单向数据传输速度达2Tbps,双向是4Tbps。
未来保持8波段不变,把光纤传输速率提高到64Gbps,单向数据传输速度就翻倍成4Tbps,再往后变成16波段,传输速度就提高到8Tbps。未来可以继续演进,逐步提升带宽。
三、未来还能与GPU集成,多重差异性优势拆解
相比分离式、插拔式的方案,将OCI芯粒与CPU共封在一起,需要整体上考量热量管理,并在封装层面保证信号传输密度和传输频率 。英特尔目前的技术已经能够满足这些需求。
未来OCI芯粒可用于实现通信,还可以跟CPU、GPU、IPU等计算芯片集成。 通过硅光集成和先进封装技术,英特尔能够实现更高密度的I/O芯粒,再与其它的xPU结合,未来基于芯粒形成很多不同的计算加互连芯片种类,应用前景可期。
宋继强进一步解释说,后续与其他类型芯片集成的挑战不在技术层面,而在实施层面,需要关注的是带宽密度 ,比如在光电接口距离有限制的情况下,如何放进这些光电转换的接口?在一定尺寸范围内,能达到的带宽密度是不是足够?
据他分享,为了使OCI芯粒更加灵活,并减少集成过程中的工作量,通常会考虑在主机xPU与I/O之间使用已通过健全的IP生态系统实现标准化的电气接口,如UCIe、PCIe、以太网等 。
他也谈及英特尔方案的差异性优势。
首先,英特尔可以量产晶圆级的高集成度激光器,产量和可靠性更高,总成本更低。从理论转化到高良率的生产后,才能形成产业化的能力。
现有外部激光器方案需要用专门的光纤,成本高,且没有规模化部署的案例。片上激光器的好处是用普通光纤就能传输,由于不需要外部光源,因此不需要偏振维持光纤 (PMF,一种连接外部光源和无源硅光子集成电路时需要使用的特殊光纤)。
做激光发射器时,做分离器件相对简单。把激光器做在一个晶圆上则存在技术门槛,要能把不同种类的半导体在晶圆层面很好键合,然后通过半导体制作工艺去形成控制电路。包括光源、调制器、放大器、光波导、检测器等光方面的器件,都要能在晶圆层面实现。
其次,英特尔有大批量、经过实际验证的平台,器件具备业界领先的可靠性。
英特尔OCI芯粒基于内部经量产验证的硅光子集成平台打造,该平台自2015年以来为超大规模数据中心内的连接应用交付了超过800万个 光收发器模块(包括超过800万个 硅光子集成电路和超过3200万个 集成激光器),用于传输速率需求达100Gbps、200Gbps、400Gbps的应用。
其可靠性已在数百万个器件上得到验证,数据显示,激光器的时基故障率(FIT)小于0.1 ,等于说100亿小时才可能出现1次故障。
此外,在两个独立的芯片(硅光子集成电路和电子集成电路)上构建光子和CMOS电路,确保了可扩展性和性能优化 ,而无需在单个芯片上结合两种截然不同的技术所必需的折衷和权衡。
英特尔在先进封装、系统和平台方面的积累,也使其能够优化光学I/O解决方案。 英特尔正在投入研发新的硅光子制造工艺节点,以实现领先的器件性能提升、更高的密度、更好的耦合性和更高的经济效益,还将继续改善片上激光器和光收发器的性能、成本和可靠性。
结语:从技术原型迈向商业化方案
在硅光子领域,英特尔研究院已经深耕超过25年,是硅光集成的开拓者和领导者。英特尔在业内率先开发并向大型云服务提供商批量交付硅光子连接器件,并正在与客户合作,以将OCI芯粒技术原型转化为可规模化、商业化的解决方案。
就成本而言,英特尔相信随着时间的推移和产量的提升,在系统层级,光学I/O的每比特总互连成本将可与电气I/O相比。光学I/O性能更强,也有助于在系统层级提高性能。
为实现这一目标,英特尔目前正在开发第二代硅光子制造工艺节点,预计能将芯片面积减少40%以上,功耗减少15%以上,从而提高经济效益,并在光耦合效率、激光功率等方面取得进步。
CPU、GPU的互连从1米飙至100米,英特尔:你相信光吗?
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
英特尔用“光” ,突破了大模型时代棘手的算力难题——
推出业界首款全集成OCI (光学计算互连)芯片。
△图源:英特尔
要知道,在AI大模型遵循Scaling Law发展的当下,为了取得更好的效果,要么模型规模、要么数据规模,都在往更大的趋势发展。
这就会导致AI大模型在算力层面上,对整个计算、存储,包括中间I/O通信等提出更高的要求。
而英特尔此次的突破口,正是I/O通信 :
在CPU和GPU中,用光学I/O取代电气I/O进行数据传输。
有什么用?
一言蔽之,数据传输距离远多了 ,量大了 ,功耗低了 ——更适合AI大模型的“体质”了。
△图源:英特尔
那么英特尔为什么要用到“光”?具体又是如何实现的?
用上了“光”,从马车变卡车
传统采用电气I/O的方式(铜线连接)固然有它的优势,例如支持高带宽密度和低功耗,但致命的问题就是传输距离比较短(不到1米) 。
这要放在一个机架里倒也是没有问题,但AI大模型在算力上往往标配都是服务器集群这个量级。
不仅占地面积大,还跨N多个机架,线都是需要几十米甚至上百米的长度,功耗那是相当的高;它会吃掉所有供给机架的电源,以至于没有足够的电去做计算和存储芯片的读写操作。
除此之外,存算比 方面,也正是因为大模型“大”的特点,由原来读取一次做上百次计算的比例,到现在直接变成了接近1:1。
△图源:英特尔
这就需要一种新的办法,可以在提高算力和存储密度的同时降低功耗、缩小体积,从而在一个有限的空间里,放进更多的计算和存储。
而用上了光学I/O,问题便迎刃而解了:
可在最长100米的光纤上,单向支持64个32Gbps通道。
一个形象的比喻就是,就好比从使用马车 (容量和距离有限)到使用小汽车和卡车 来配送货物(数量更大、距离更远)。
不仅如此,即使是在相对较近的距离去完成一些更高密度、更灵活的数据传输工作,OCI这种方式则可以类比成摩托车 ,速度更快且更灵活。
值得一提的是,这种OCI的方法不是停留在理论的那种。
据英特尔介绍,他们已经利用了实际验证的硅光子技术,集成了包含片上激光器的硅光子集成电路(PIC)、光放大器和电子集成电路。
并且在此前也展示了与自家CPU封装在一起的OCI芯粒,还能与下一代CPU、GPU、IPU等SOC(系统级芯片)集成。
还没完,英特尔也已经出货了超过800万个硅光子集成电路,其中超过3200万个现已投入使用的激光器。
△图源:英特尔
那么接下来的一个问题是:
英特尔的OCI是如何“炼”成的?
英特尔研究院副总裁、英特尔中国研究院院长宋继强 的交流过程中,他对这个问题做了深入的剖析和解读。
△英特尔研究院副总裁、英特尔中国研究院院长,宋继强
硅光子技术集合了20世纪两项最重要的发明:硅集成电路和半导体激光。
与传统电子产品相比,它支持在较远的距离内更快的数据传输速度,同时利用英特尔高容量硅产品制造的效率。
英特尔这一次发布的硅光集成技术,OCI芯粒达到了光电共封装的层面。
这个光电共封装是把一个硅光子集成电路(PIC),和一个电子集成电路(EIC),放在一个基板上组成了一个OCI芯粒,作为一个集成性连接的部件。
这就意味着xPU,包括CPU,未来的GPU都可以和OCI芯片封装在一起。
OCI芯粒就是把数据中心CPU出来的所有的电气I/O信号转成了光,通过光纤,在两个数据中心的节点或者是系统里面去互相传输。
目前的双向数据传输速度达到了4Tbps,它在上层的传输协议兼容到PCIe 5.0,单向支持64个32Gbps通道,这在目前的数据中心当中是足够用的:
它采用8对光纤,功耗仅为每比特5皮焦耳(pJ),即10-12焦耳,这个数据比可插拔光收发器模块的功耗降了3倍(后者是每比特15皮焦耳)。
△图源:英特尔
在一个光传输的通道里,它实际上有8个不同的波段,每个波段的频率间隔是200GHz,一共占用了1.6THz光谱的间距用来传输。
光从可见光到不可见光,实际上它的频谱宽度是很宽的,从THz开始就算是接近光通讯了。
那么OCI芯粒未来会用在哪些领域呢?
对此,宋继强表示:
一个是可以用它来实现通信,还可以把它跟CPU、GPU这些计算芯片封装在一起,计算加通信非常紧密地封装在一起。
我们通过硅光集成和先进封装技术,先进封装英特尔也有非常多不同的技术,就可以实现更高密度的I/O芯粒,然后再和其它的xPU结合,未来基于芯粒,形成很多不同种类的计算加互连的芯片种类,会有非常好的应用前景。
就OCI I/O接口芯粒的性能演进路线图来看,它目前可以达到32Tbps传输速度的技术方案,主要靠迭代式的稳步提升三个方面的指标,分别是:
一根光纤里有8段稳定的波段每一个波段的光数据传输率为32Gbps可同时拉8对光纤且互不影响这三个指标乘起来,就是目前单向上有2Tbps的数据传输速度,双向即是4Tbps。未来可以继续向上演进,逐步提升带宽能力。
△图源:英特尔
最后,英特尔在硅光集成技术的差异化方面,宋继强也做出了解释:
主要是我们把高频率的激光发射器做在了晶圆上,又把硅的光放大器也集成上去,这是两个比较核心的技术,都是在晶圆级去制造出来的。
接下来,我们可以量产这样的高集成度激光器,因为这种在片上的激光器的好处是用普通的光纤就可以去传输了。
并且在稳定性方面,几乎是100亿小时才有可能发生一次错误 。
那么你觉得英特尔pick的“光”如何呢?欢迎在评论区留言讨论。
参考链接:[1]https://mp.weixin.qq.com/s/ozx_ficqlxjEPKa5AlBdfA[2]https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Shows-OCI-Optical-I-O-Chiplet-Co-packaged-with-CPU-at/post/1582541[3]https://www.youtube.com/watch?v=Fml3yuPR2AU
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关问答
英特尔移动通信技术(上海)有限公司怎么样?
英特尔移动通信技术有限公司在大城市有好几个点,集团实力在我们这个行业来说还是蛮好的。我是通信工程专业的。只要你有能力、有新思想、富于创新。待遇肯定不...
青岛大学电子信息学院(微纳技术学院)怎么样?设有哪些专业?申...
[回答]~接下来我为大家简单介绍一下我们青岛大学的电子信息学院(微纳技术学院)开设的专业以及研究情况专业设置:电子信息工程,通信工程,电子信息科学与技...
什么是DP通讯和光纤通讯和以太网通讯有什么区别?
它们之间的区别是:纤通讯是一种概念上的称谓,以太网就是局域网的发展技术,而光纤以太网就是利用光纤资源建立起来的网络。;光纤通讯光纤通讯也作光纤通信,...
在5G调制解调器领域,英特尔和高通比到底差在哪里?
在技术上,5G和以往的4G基带是完全不一样的,现在5G的标准未完全定下来,所以需要探索的东西太多了,你研发出来的东西工满足现在的标准,但又不限于现在的标准,...
平时所说的AMD平台,INTEL平台是什么意思?-ZOL问答
一般来说,芯片组的名称就是以北桥芯片的名称来命名的,例如英特尔845E芯片组的北...这主要是考虑到北桥芯片与处理器之间的通信最密切,为了提高通信性能而缩短传...
东北大学(中国)信息科学与工程学院怎么样?设有哪些专业?申请方
[回答]学院有自动化、计算机、通信工程、电子信息工程、测控技术与仪器、电气工程及自动化、电子科学与技术、物联网工程8个本科专业,现有全日制在校学生5...
为什么有人说intel是“牙膏厂”?
但是这几年的英特尔几乎不敢再“挤牙膏”了,尤其是8代酷睿一下子把核心数量增加,这里主要还是因为AMD锐龙处理器给英特尔带来了很大压力,包括未来的10代酷睿...
英特尔是哪个国家的品牌?
美国的品牌英特尔公司是美国一家设计和生产半导体的科技企业,由罗伯特·诺伊斯、戈登·摩尔和安迪·格鲁夫于1968年在美国加州联合创立。英特尔公司是一家致...
以太网是什么-懂得
以太网是一种计算机局域2113网技术5261。IEEE组织的IEEE802.3标准制定了4102以太网的技术标准,它规定1653了包括物理层的连线、电子信号和介质访问...
以太网的特点-懂得
以太网定义了在局域电缆类型和信在互联设备之间以10~100Mbps的速率传送信息包(现在有1000mbps的,貌似没普及,反正我没用过)。以太网可以...以太网...