CloudEngine 16800,打造最快数据中心网络的AI交换机


昨天全球科技我要分享

人工智能(AI)的兴起

经过50年的发展,人工智能正在进入快速发展的时期,并日益成为一种深刻影响人们生活和社会进步的通用技术。

数据显示,自2000年以来,全球人工智能企业发展迅速,共有8,107家,平均每天1.39。通过数据发现,过去五年一直是人工智能发展的重要阶段:全球60%以上的人工智能公司在过去五年中诞生。 2012 - 2016年,全球共有5,154家新的人工智能公司,前12年。 1.75倍左右。

全球人工智能产业规模发展

乌镇指数2017

AI对基础设施的开发要求

华为发布的《GIV 2025:打开智能世界产业版图》白皮书预测,2025年个人智能终端数量将达到400亿,个人智能助理普及率将达到90%,智能服务机器人将进入12%的家庭。全球1000亿连接将广泛应用于金融,制造,运输,公用事业,医疗和农业领域,以促进数字化转型。届时,企业应用云化率将达到85%,AI利用率将达到86%,数据利用率将大幅提升至80%,每年1800亿TB的新数据将不断创造智能和价值。

相信人工智能将在未来几十年继续高速发展,并将更深刻地影响整个技术,经济和社会发展。在不久的将来,人们最初完成的许多工作将由机器完成,人工智能技术将发展到一个新的水平。

AI应用程序和服务与数据中心的支持密不可分。从技术角度来看,未来的AI数据中心将更大更快:

规模更大:目前,许多AI应用程序已经在使用海量数据和云计算平台来获取大量数据进行计算。随着行业数据和物联网等大型数据源的不断整合,单个AI计算系统的规模将继续扩大。未来的人工智能计算环境必须基于数据中心提供的基于云中心的服务和接口。

更快的计算:目前,主流服务器CPU可以提供大约1 TFLOPS的计算能力,并且近年来CPU增长已经进入了瓶颈。相比之下,最近常见的GPU芯片可以提供10 TFLOPS的计算能力。新开发的AI专用计算芯片和具有AI特定加速内核的GPU已经能够以相似的功耗提供超过100 TFLOPS的计算能力。设计变更打破了摩尔定律对人工智能计算的限制。有理由相信未来的AI芯片功能将迅速增加,使得单个节点的AI计算能力达到前所未有的高度。计算能力的提高也对系统架构,网络架构和通信性能提出了更高的要求。

人工智能时代数据中心面临的挑战

在人工智能时代,数据中心规模更大,计算和存储速度更快,网络已经成为人工智能服务发展的瓶颈。数据中心网络在性能指标方面仍存在较大差距,如高带宽,低延迟和低丢包率。特别是在细粒度的单点控制,网络控制和软硬件设计方面,存在着不能完全满足未来的差距。 AI应用程序在计算和通信之间具有高度并行性。

具体而言,AI时代的数据中心,特别是分布式云数据中心,在微突发流控制,拥塞响应,负载均衡和混合流调度方面面临巨大挑战:

Incast(微突发流)延长通信时间:在分布式数据中心,服务器集群中的多个服务器同时访问一个服务器以形成Incast(微突发流)是正常的。数据中心网络具有共同的流量控制机制(例如PFC)。它不能保证不会发生丢包,这会导致一些流量严重拖尾,延长整体通信时长。

拥塞无法快速响应:分布式数据中心的突发数据很大,响应时间很短。然而,基于ECN(显式拥塞通知)的显式拥塞通知方法的拥塞控制机制太长,这容易导致。吞吐量或流量超调问题不能满足毫秒级突发和AI业务大流量的拥塞控制要求。

缺乏有效的负载均衡机制:由于AI时代数据中心的计算模型,AI应用交互产生的流量具有明显的模式特征,使得网络路径上的流量严重失衡。目前,基于流量负载均衡机制的数据中心网络已不能满足高带宽和连续大流量的负载均衡要求。

无法根据优先级调度混合流:数据中心的分布式数据中心是大规模的大型流(10M-100MB),而用于控制的流量是小型流(KB级)。长期频繁的大流量通信会严重影响AI应用程序的通信以控制小流量。但是,控制小流的通信通常具有更高的优先级,从而降低了AI应用程序和培训效率。目前,数据中心交换机和服务器网卡很少支持不同类型的流量,例如数据流和小流量控制,因此控制小流量由于缓冲,头端拥塞以及没有高优先级调度而被动等待。

满足AI需求的智能无损网络

随着人工智能的发展和普及,存储介质和计算技术的不断完善,数据中心网络面临着流量控制,拥塞响应,负载均衡和混合流量调度等诸多挑战。

为迎接挑战,华为CloudEngine系列交换机首次创新性地引入了AI芯片,并为AI时代构建了AI Fabric智能无损数据中心网络解决方案。

通过AI芯片强大的处理能力,CloudEngine运行iLossless算法,实现独特创新的拥塞管理和流量控制,创建最快的数据中心网络,引领数据中心进入智能和非破坏性的新时代。

AI Fabric智能无损数据中心网络主要通过四个方面实现零丢包,低延迟,高吞吐量的最终性能:包括微突发流量控制,流量属性智能识别调度,流量负载均衡和拥塞控制协调。

包含微突发流量控制,无丢包和无拥塞

具有嵌入式AI芯片的CloudEngine交换机可以实时动态调整转发芯片缓存阈值配置,突破传统交换机固定门限参数的限制,并根据流量模型的变化自适应调整缓存阈值,有效应对分布式架构N播放1 Incast micro Burst flow,不丢包。

差异化的规模和流量调度

CloudEngine交换机可以自动识别大小和流属性,在数据流传输后,执行大流量降级调度以防止大流被阻塞。结果,由于分组丢失或延迟增加,小流丢失。堵塞。

网络流量负载平衡

数据中心网络通常使用基于消息特征字段的静态哈希算法来进行流量负载平衡。一方面,CloudEngine交换机可以将数据流“切割”为多个小流,以提高负载平衡和链路带宽利用率。另一方面,哈希算法加入链路空闲因子以减少哈希不平衡的发生。整个网络流量转发得更合理,链路重用。

拥塞控制协作

当数据包队列拥塞时,CloudEngine交换机可以立即执行ECN(显式拥塞通知)标志,以避免传统的ECN显式拥塞标记模式。数据包需要等待,直到数据包“排队”到“出队”。 “拥堵通知开始了。”保存整个队列的拥塞时间差,使得报文发送端的服务器网卡响应拥塞并更快地减速,从而及时缓解网络设备的缓冲区拥塞,从而有效减少延迟和提高应用程序性能。

AI Fabric在金融行业的创新实践

AI Fabric的智能无损数据中心网络解决方案已部署在多家企业中。

招商银行是全球首家部署华为AI Fabric解决方案的客户。该解决方案帮助招商银行将其IOPS业绩提高了约20%的分支机构云存储,帮助招商银行加快向“轻银行”和“零售金融3.0”的转型。

AI Fabric解决方案可应用于典型的数据中心场景,如AI应用程序培训,分布式存储和高性能计算。它比业界主流竞争对手快30%,100%释放计算能力,降低TCO 53%,实现智能化。金融。

收集报告投诉

人工智能(AI)的兴起

经过50年的发展,人工智能正在进入快速发展的时期,并日益成为一种深刻影响人们生活和社会进步的通用技术。

数据显示,自2000年以来,全球人工智能企业发展迅速,共有8,107家,平均每天1.39。通过数据发现,过去五年一直是人工智能发展的重要阶段:全球60%以上的人工智能公司在过去五年中诞生。 2012 - 2016年,全球共有5,154家新的人工智能公司,前12年。 1.75倍左右。

全球人工智能产业规模发展

乌镇指数2017

AI对基础设施的开发要求

华为发布的《GIV 2025:打开智能世界产业版图》白皮书预测,2025年个人智能终端数量将达到400亿,个人智能助理普及率将达到90%,智能服务机器人将进入12%的家庭。全球1000亿连接将广泛应用于金融,制造,运输,公用事业,医疗和农业领域,以促进数字化转型。届时,企业应用云化率将达到85%,AI利用率将达到86%,数据利用率将大幅提升至80%,每年1800亿TB的新数据将不断创造智能和价值。

相信人工智能将在未来几十年继续高速发展,并将更深刻地影响整个技术,经济和社会发展。在不久的将来,人们最初完成的许多工作将由机器完成,人工智能技术将发展到一个新的水平。

AI应用程序和服务与数据中心的支持密不可分。从技术角度来看,未来的AI数据中心将更大更快:

规模更大:目前,许多AI应用程序已经在使用海量数据和云计算平台来获取大量数据进行计算。随着行业数据和物联网等大型数据源的不断整合,单个AI计算系统的规模将继续扩大。未来的人工智能计算环境必须基于数据中心提供的基于云中心的服务和接口。

更快的计算:目前,主流服务器CPU可以提供大约1 TFLOPS的计算能力,并且近年来CPU增长已经进入了瓶颈。相比之下,最近常见的GPU芯片可以提供10 TFLOPS的计算能力。新开发的AI专用计算芯片和具有AI特定加速内核的GPU已经能够以相似的功耗提供超过100 TFLOPS的计算能力。设计变更打破了摩尔定律对人工智能计算的限制。有理由相信未来的AI芯片功能将迅速增加,使得单个节点的AI计算能力达到前所未有的高度。计算能力的提高也对系统架构,网络架构和通信性能提出了更高的要求。

人工智能时代数据中心面临的挑战

在人工智能时代,数据中心规模更大,计算和存储速度更快,网络已经成为人工智能服务发展的瓶颈。数据中心网络在性能指标方面仍存在较大差距,如高带宽,低延迟和低丢包率。特别是在细粒度的单点控制,网络控制和软硬件设计方面,存在着不能完全满足未来的差距。 AI应用程序在计算和通信之间具有高度并行性。

具体而言,AI时代的数据中心,特别是分布式云数据中心,在微突发流控制,拥塞响应,负载均衡和混合流调度方面面临巨大挑战:

Incast(微突发流)延长通信时间:在分布式数据中心,服务器集群中的多个服务器同时访问一个服务器以形成Incast(微突发流)是正常的。数据中心网络具有共同的流量控制机制(例如PFC)。它不能保证不会发生丢包,这会导致一些流量严重拖尾,延长整体通信时长。

拥塞无法快速响应:分布式数据中心的突发数据很大,响应时间很短。然而,基于ECN(显式拥塞通知)的显式拥塞通知方法的拥塞控制机制太长,这容易导致。吞吐量或流量超调问题不能满足毫秒级突发和AI业务大流量的拥塞控制要求。

缺乏有效的负载均衡机制:由于AI时代数据中心的计算模型,AI应用交互产生的流量具有明显的模式特征,使得网络路径上的流量严重失衡。目前,基于流量负载均衡机制的数据中心网络已不能满足高带宽和连续大流量的负载均衡要求。

无法根据优先级调度混合流:数据中心的分布式数据中心是大规模的大型流(10M-100MB),而用于控制的流量是小型流(KB级)。长期频繁的大流量通信会严重影响AI应用程序的通信以控制小流量。但是,控制小流的通信通常具有更高的优先级,从而降低了AI应用程序和培训效率。目前,数据中心交换机和服务器网卡很少支持不同类型的流量,例如数据流和小流量控制,因此控制小流量由于缓冲,头端拥塞以及没有高优先级调度而被动等待。

满足AI需求的智能无损网络

随着人工智能的发展和普及,存储介质和计算技术的不断完善,数据中心网络面临着流量控制,拥塞响应,负载均衡和混合流量调度等诸多挑战。

为迎接挑战,华为CloudEngine系列交换机首次创新性地引入了AI芯片,并为AI时代构建了AI Fabric智能无损数据中心网络解决方案。

通过AI芯片强大的处理能力,CloudEngine运行iLossless算法,实现独特创新的拥塞管理和流量控制,创建最快的数据中心网络,引领数据中心进入智能和非破坏性的新时代。

AI Fabric智能无损数据中心网络主要通过四个方面实现零丢包,低延迟,高吞吐量的最终性能:包括微突发流量控制,流量属性智能识别调度,流量负载均衡和拥塞控制协调。

包含微突发流量控制,无丢包和无拥塞

具有嵌入式AI芯片的CloudEngine交换机可以实时动态调整转发芯片缓存阈值配置,突破传统交换机固定门限参数的限制,并根据流量模型的变化自适应调整缓存阈值,有效应对分布式架构N播放1 Incast micro Burst flow,不丢包。

差异化的规模和流量调度

CloudEngine交换机可以自动识别大小和流属性,在数据流传输后,执行大流量降级调度以防止大流被阻塞。结果,由于分组丢失或延迟增加,小流丢失。堵塞。

网络流量负载平衡

数据中心网络通常使用基于消息特征字段的静态哈希算法来进行流量负载平衡。一方面,CloudEngine交换机可以将数据流“切割”为多个小流,以提高负载平衡和链路带宽利用率。另一方面,哈希算法加入链路空闲因子以减少哈希不平衡的发生。整个网络流量转发得更合理,链路重用。

拥塞控制协作

当数据包队列拥塞时,CloudEngine交换机可以立即执行ECN(显式拥塞通知)标志,以避免传统的ECN显式拥塞标记模式。数据包需要等待,直到数据包“排队”到“出队”。 “拥堵通知开始了。”保存整个队列的拥塞时间差,使得报文发送端的服务器网卡响应拥塞并更快地减速,从而及时缓解网络设备的缓冲区拥塞,从而有效减少延迟和提高应用程序性能。

AI Fabric在金融行业的创新实践

AI Fabric的智能无损数据中心网络解决方案已部署在多家企业中。

招商银行是全球首家部署华为AI Fabric解决方案的客户。该解决方案帮助招商银行将其IOPS业绩提高了约20%的分支机构云存储,帮助招商银行加快向“轻银行”和“零售金融3.0”的转型。

AI Fabric解决方案可应用于典型的数据中心场景,如AI应用程序培训,分布式存储和高性能计算。它比业界主流竞争对手快30%,100%释放计算能力,降低TCO 53%,实现智能化。金融。