华为AI训练集群华为未来一年的战略计划

时间:2019-09-18 14:40       来源: 未知

华为AI训练集群华为未来一年的战略计划Atlas 900 AI训练集群采用业界单芯片算力最强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力。Atlas 900 AI训练集群将数千颗昇腾910 AI处理器互联,打造业界第一的算力集群。

昇腾910 AI处理器采用SoC设计,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据预处理任务,充分提升训练效率

Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式,百TB全互联无阻塞专属参数同步网络,降低网络时延,梯度同步时延缩短10~70%。

在AI服务器内部,昇腾910 AI处理器之间通过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技术互联,其速率是业界主流采用的PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的Clo华为AI训练集群华为未来一年的战略计划udEngine 8800系列交换机,提供单端口100Gbps的交换速率,将集群内的所有AI服务器接入高速交换网络。

独创iLossless 智能无损交换算法,对集群内的网络流量进行实时的学习训练,实现网络0丢包与E2E μs级时延。

在计算的智能时代,华为认为有三个重要特征。

  Diyi个特征,需要超强的算力。统计计算本身就是一种暴力计算,高度依赖于算力。举个例子,为了让计算机认识一只猫,就需要数百万图片的训练,华为AI训练集群华为未来一年的战略计划这对算力的消耗是非常惊人的,面向自动驾驶、天文探索、气象预测等更复杂场景,对算力的需求将会更大。

  第二个特征,计算和智能将会无处不在,而不仅仅是分布在中心侧。从中心节点的暴力计算,到边缘侧的专业计算,如基因测序,以及端侧的个性计华为AI训练集群华为未来一年的战略计划算,如耳机、手机,一起构成了未来智能时代的计算形态。

  第三个特征,端边云之间需要高效的协同。中心侧负责通用模型的计算,为端侧的个性化计算和边缘侧的专业化计算,提供协同支撑。

  要实现这三个特征,依然面临很多挑战。比如,超强的算力,探索新的计算架构,面向全场景的处理器等等。