1.1 解决方案
[产品与解决方案介绍视频(渠道版)] 020101Atlas人工智能计算平台
[彩页(客户版)] 华为Atlas人工智能计算解决方案产品彩页
[营销物料] 人工智能创新应用优秀案例集
1.2 昇腾文档
昇腾官网
AscendCL文档
昇腾产品成长地图
2.1 Ascend昇腾
华为昇腾系列芯片的系列名称。昇腾芯片上集成了AI CORE、AI CPU和CPU。其中,AI CORE负责大型Tensor Vector运算,AI CORE负责标量运算,CPU负责逻辑控制和任务分发。在昇腾310AI处理器(NPU)上,既有负责 专用计算 的Davinci Core,也有负责 通用计算 的Control CPU。
Host侧CPU负责将图或算子下发到昇腾芯片。昇腾芯片由于具备了运算、逻辑控制和任务分发的功能,所以不需要与Host侧的CPU进行频繁的交互,只需要将计算完的最终结果返回给Host侧,实现整图下沉到Device执行,避免Host-Device频繁交互,减小了开销。
2.1.1 达芬奇架构
达芬奇核心分为三种,最完整的是 Max,其次是 Lite,再次是 Tiny,Max 可在一个周期内完成 8192 次 MAC 运算,Tiny 为512次。昇腾 910 属于 Ascend-Max 系列,它基于 7nm 增强版 EUV 工艺,单 Die 内建 32颗达芬奇核心,半精度高达 256TFOPs,功耗为 350W。
2.1.2 计算密度
在 HotChips 大会上,华为还将昇腾 910 的计算密度与 NVIDIA Tesla V100 和 Google TPU v3进行了对比,其中昇腾 910 的计算密度远远超过了这两个竞争对手。
2.1.3 On Device
所谓On Device中的Device通常指Ascend(昇腾)AI处理器。
2.1.4 计算图下沉
on-device执行
计算图整图下沉到Device上执行,减少Host-Device交互开销。可以结合 循环下沉 实现多个Step下沉,进一步减少Host和Device的交互次数。
2.1.5 循环下沉
on-device执行
循环下沉是在On Device执行的基础上的优化,目的是进一步减少Host侧和Device侧之间的交互次数。通常情况下,每个Step都返回一个结果,循环下沉是控制每隔多少个Step返回一次结果。
默认配置下,每一个Epoch返回一次结果,在每个Epoch里,Host侧和Device侧只需要进行一次数据交互。
2.1.6 数据下沉
数据下沉是指数据通过通道直接传送到Device上。
2.2 昇腾产品形态
昇腾产品形态说明
2.2.1 设备形态
支持端、边、云的各种设备。
2.2.2 RC与EP模式
昇腾 AI 处理器的工作模式如下:
昇腾310 AI处理器有EP和RC两种模式。
昇腾710 AI处理器只有EP模式。
昇腾910 AI处理器只有EP模式。
RC(Root Complex)模式
以昇腾 AI 处理器的PCIe的工作模式进行区分,如果PCIe工作在 主模式,可以扩展外设,则称为 RC模式。这种模式下,计算设备直接承担主控任务,设备自己就是“根”。
**RC模式的优点:**内存管理简单,无需考虑Host侧的事情。
**RC模式的缺点:**不能平行接入同类设备。就是说,一个Atlas200做主控的时候,不能平行接入另一个Atlas200做并行计算,也就失去了扩展性。
支持RC模式的产品有:
Atlas 200 AI加速模块。
Atlas 200 DK 开发者套件。
EP(End Point)模式
如果PCIe 工作在 从模式,则称为 EP模式。EP模式通常 由Host侧作为主端,Device侧作为从端。客户的AI业务程序运行在Host系统中,产品作为Device系统以PCIe从设备接入Host系统,Host系统通过PCIe通道与Device系统交互,将AI任务加载到Device侧的昇腾 AI 处理器中运行。
**优点:**主控CPU在计算设备之外,可以用一个主控CPU接多个计算设备(比如Atlas300I推理卡),方便扩展,执行并行计算。
**缺点:**编程复杂度偏高一些。要考虑Host->Device内存数据传输及其时间开销。
支持EP模式的产品:
昇腾310 AI处理器:Atlas 200 AI加速模块、Atlas 300I 推理卡、Atlas 500 智能小站、Atlas 500 Pro 智能边缘服务器、Atlas 800 推理服务器。
昇腾710 AI处理器:Atlas 300I Pro 推理卡、Atlas 300V Pro 视频解析卡。
昇腾910 AI处理器:Atlas 800 训练服务器、Atlas 300T 训练卡。
2.2.3 Host与Device
Host和Device的概念说明如下:
Host:Host指与Device相连接的 X86服务器 、 ARM服务器 ,会利用Device提供的NN(Neural-Network)计算能力,完成业务。
Device:是指安装了昇腾AI处理器的硬件设备,利用PCIe接口与Host服务器连接,为Host服务器提供NN计算能力。 广义的Device 泛指安装了NPU的硬件设备,例如Atlas 300I。Atlas 300I 利用PCIe接口与主机(Host)侧连接,为Host提供NN计算能力。广义的Device既包含芯片,也包含板子上的内存等其他设备。Atlas 300I焊接了4片昇腾310 AI处理器, 侠义的Device 特指这几个芯片。
2.3 CPU
型号 厂家 kunpeng鲲鹏920 华为 Intel® Xeon® SP Skylake Intel Cascade Lake Intel Intel V5 Cascade Lake Intel
2.4 NPU
Neural-Network Processing Unit(简称“NPU”),神经网络处理单元。
2.5 AI处理器
型号 昇腾310 昇腾910 昇腾920
查看昇腾芯片的详细信息:
ascend-dmi -i -dt
返回信息中“Chip Name”对应取值即为
--soc_version=Ascend310 --soc_version=Ascend710 --soc_version=Ascend910A
2.6 ADK
Ascend Development Kit(简称“ADK”)设备开发套件,ADK是解决方案提供的开发者套件包,通过安装相关软件包后获得开发必需的API、库、工具链等开发组件。
2.7 华为全栈全场景AI解决方案
2.8 Atlas人工智能计算平台全景图
1平台+3计划,支撑昇腾产业合作伙伴及开发者。五年投资30亿RMB,发展3000家合作伙伴,培养百万开发者。
3.1 Atlas智能边缘解决方案
华为Atlas智能边缘解决方案,基于华为昇腾系列处理器,通过模块、板卡、小站等系列化产品,打造面向端侧和面向边缘侧场景下人工智能基础设施方案。端侧摄像头、无人机等端侧部署AI模块可实现视频监控、图像识别;面向边缘侧的智能小站凭借超强算力、体积小、环境舒适性强等优势,可满足在安防、交通、社区、园区、商场、超市等复杂环境区域的AI算力需求。
相关产品
Atlas 200 AI加速模块(型号:3000);
Atlas 200 AI加速模块(型号:3000); Atlas 300I 推理卡(型号:3000/3010);
Atlas 300I 推理卡(型号:3000/3010); Atlas 500 智能小站(型号:3000);
Atlas 500 智能小站(型号:3000); Atlas 500 Pro 智能边缘服务器(型号:3000);
3.2 Atlas数据中心解决方案
华为Atlas数据中心解决方案,基于华为昇腾系列AI处理器,通过板卡、服务器、集群等系列化产品,打造云场景下人工智能基础设施方案,适配各种不同规模数据中心需求,覆盖深度学习领域推理和训练全流程,适用于智慧城市、智慧医疗、智慧金融、天文探索、石油勘探等行业领域。
相关产品
Atlas 300T 训练卡(型号:9000);
Atlas 300T 训练卡(型号:9000); Atlas 800 训练服务器(型号:9000);
Atlas 800 训练服务器(型号:9000); Atlas 900 PoD(型号:9000);
Atlas 900 PoD(型号:9000); Atlas 900 AI集群(型号:9000);
ModelArts 应用使能 ,提供全流程服务,分层API和预集成方案。ModelArts是面向开发者的一站式 AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式 Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。 专属资源池为专业用户提供高性能,高效率的优化体验,资源池支持包周期及按需计费,满足不同专业用户需求。
MindStudio 用户手册
MindStudio 全流程开发工具链 ,提供AI开发所需的一站式开发环境,支持 模型开发、算子开发、应用开发三个开发任务。依靠 模型可视化、算力测试、IDE本地仿真调试 等功能,帮助开发者高效便捷的完成AI开发。
MindStudio 全流程工具链串起一条从上到下的应用流,从训练模型、开发模型到应用模型和使用 SDK,快速的走通一个应用、一个分类目标检测的应用。
5.1 MindStudio架构
MindStudio 是一套基于 IntelliJ 框架的开发工具平台,提供了应用开发、调试、模型转换功能,同时还提供了网络移植、优化和分析功能,为用户开发应用程序带来了极大的便利。
功能特性
针对 算子开发 ,Mind Studio提供了全套的算子开发、调优能力。通过Mind Studio提供的工具链也可以进行第三方算子开发,降低了算子开发的门槛,并提高算子开发及调试调优的效率,有效提升了产品竞争力。
,Mind Studio提供了全套的算子开发、调优能力。通过Mind Studio提供的工具链也可以进行第三方算子开发,降低了算子开发的门槛,并提高算子开发及调试调优的效率,有效提升了产品竞争力。 针对 网络模型的开发 ,Mind Studio集成了离线模型转换工具、模型量化工具、模型精度比对工具、模型运行性能分析工具、日志分析工具,提升了网络模型移植、分析和优化的效率。
,Mind Studio集成了离线模型转换工具、模型量化工具、模型精度比对工具、模型运行性能分析工具、日志分析工具,提升了网络模型移植、分析和优化的效率。 针对 计算引擎开发 ,Mind Studio预置了典型的分类网络、检测网络等计算引擎代码,降低了开发者的技术门槛,加快了开发者对AI算法引擎的编写及移植效率。
,Mind Studio预置了典型的分类网络、检测网络等计算引擎代码,降低了开发者的技术门槛,加快了开发者对AI算法引擎的编写及移植效率。 针对应用开发,Mind Studio集成了各种工具,如分析器(Profiler)和编译器(Compiler)等,为开发者提供了图形化的集成开发环境,通过Mind Studio能够进行工程管理、编译、调试、性能分析等全流程开发,能够很大程度提高开发效率。
5.2 AI全栈开发典型场景
应用开发 场景的流程:创建应用工程,代码开发,模型集成,应用调试,应用性能调优,质量保证,发布应用。
场景的流程:创建应用工程,代码开发,模型集成,应用调试,应用性能调优,质量保证,发布应用。 模型调优 场景:创建算法工程,模型训练,生成模型,模型转换,模型算子精度比对,模型整网调优,模型评估。
场景:创建算法工程,模型训练,生成模型,模型转换,模型算子精度比对,模型整网调优,模型评估。 算子开发场景:创建算子工程,算子开发,算子调试,算子仿真运行,算子性能调优,算子上板运行,算子质量评估。
MindSpore 白皮书
MindSpore 文档
MindSpore昇思是华为自研的深度学习框架,最佳匹配昇腾AI处理器算力的 全场景AI框架 ,支持端、边、云独立的和协同的统一训练和推理,支持全场景灵活部署。全场景的意思是从「大规模公有 云端 extcolor{Red}{云端} 云端 环境」一直到「智能 边缘 extcolor{Red}{边缘} 边缘」的智能相机、边缘盒子、手机,甚至是 终端 extcolor{Red}{终端} 终端 嵌入式开发板,都可以用这一套框架来开发。
功能特性
自动并行。从最基础的数据并行,到可以做模型并行、再到 Pipeline 并行。MindSpore 是混合自动并行,意思是可以自动进行「最优的分布式并行策略」搜索,可以给开发者提供最优的并行策略。
自动并行。从最基础的数据并行,到可以做模型并行、再到 Pipeline 并行。MindSpore 是混合自动并行,意思是可以自动进行「最优的分布式并行策略」搜索,可以给开发者提供最优的并行策略。 二阶优化。做二阶求导是理论上非常符合直觉,但是工程实践上非常难的事情。尤其是你可以持续保持你做一阶的正增益,效率提高将近 1 倍,但MindSpore 是可以做到的。
二阶优化。做二阶求导是理论上非常符合直觉,但是工程实践上非常难的事情。尤其是你可以持续保持你做一阶的正增益,效率提高将近 1 倍,但MindSpore 是可以做到的。 动静态图结合。
动静态图结合。 全场景部署协同。MindSpore 和华为昇腾硬件平台配合,可以发挥巨大的性能,提供很多性能调试工具。
CANN (Compute Architecture for Neural Networks) 异构计算架构 是芯片算子库和高度自动化算子开发工具,实现了统一异构计算架构,释放昇腾硬件澎湃算力。强大的异构计算平台,能够充分的释放强大的算力,提供了 AscendCL 统一编程接口,通过 CANN 的优化做到极致性能。CANN能够支持异构计算,尤其是进行大量面向底层硬件编译优化的软件系统。
7.1 AscendCL
Ascend Computer Language(AscendCL,简称“ACL”)昇腾统一编程语言,实现软硬件解耦,提供Device管理、Context管理、Stream管理、运行资源管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等C++ API库,能够实现利用昇腾硬件计算资源、在昇腾CANN平台上进行 深度学习推理计算、图形图像预处理、单算子加速计算等能力,供用户开发深度神经网络应用。简单来说,就是 统一的 A P I 框架,实现对所有资源的调用 extcolor{Red}{统一的API框架,实现对所有资源的调用} 统一的API框架,实现对所有资源的调用。
计算资源层是昇腾AI处理器的硬件算力基础,主要完成神经网路的矩阵相关计算,完成控制算子/标量/向量等通用计算和执行控制功能,完成图像和视频数据的预处理,未深度神经网络计算提供执行上的保障。
功能特性
高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。 向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款昇腾AI处理器无差异。
7.2 AOL
昇腾算子库。
7.3 ATC
昇腾张量编译器。
7.4 ACE
昇腾计算执行器。
7.5 DVPP
昇腾CANN系列课程-AscendCL特性之图像增强(C++)
DVPP数字视觉预处理,实现硬件加速,提升图像预处理并行能力。DVPP各组件基于处理速度和处理占有量的考虑, 对输入、输出有特殊的限制 ,如**对输出图片的宽高有对齐要求,且其输出格式通常为YUV420SP等格式。**在视频分析的场景下有广阔的应用。
功能模块
视频解码模块(VDEC):视频解码模块提供对H.264/H.265格式视频的解码功能,对输入的视频码流进行解码并输出图片,可用于视频结构化等场景。
视频编码模块(VENC):与之相对应的,视频编码模块可 将原始YUV数据帧编码成H.264/H.265格式 的视频流,用于直接展示等场景。
JPEG图片解码(JPEGD):将.jpg、.jpeg、.JPG、.JPEG图片解码成YUV格式图片,用于模型推理等场景。
JPEG图片编码(JPEGE):将YUV格式图片编码成.jpg图片,用于直接展示等场景。
视觉与处理模块(VPC):可以实现图片的裁剪抠图(crop)、缩放(resize)、粘贴(paste)、格式转换(YUV/RGB到YUV420)等功能。 DVPP的缩放(resize)接口对输出数据的分辨率是有对齐要求的,即要求输出数据的分辨率要进行16 x 2对齐。
DVPP内存管理
一定要用 acldvppMalloc() 这个接口来申请Device上的大页内存,通过该接口申请出来的大页内存满足数据处理的要求(例如,内存首地址128对齐)。 acldvppMalloc() 申请出来的内存必须由 acldvppFree() 来释放。
// 申请DVPP内存 aclError acldvppMalloc(void **devPtr, size_t size) // 释放DVPP内存 aclError acldvppFree(void *devPtr)
使用DVPP中的VPC进行图像处理时,输入和输出内存地址起始要求16字节对齐,其中 128字节对齐性能最高 。
VPC基本流程
VPC的图像处理接口,当前都是异步接口,因此调用异步接口后,不能马上释放资源,需调用同步等待接口 aclrtSynchronizeStream() 阻塞应用程序运行直到指定Stream中的所有任务都完成,任务执行完成后才能释放。
7.6 AIPP
AIPP(Artificial Intelligence Pre-Processing)人工智能预处理,主要用于在AI Core上完成数据预处理,通过AIPP提供的色域转换功能,输出满足要求的图片格式;通过改变图像尺寸中的补边(Padding)功能,输出满足长宽对齐的图片等,数据处理之后再进行真正的模型推理。AIPP的出现是对DVPP能力的有效补充。
通过在模型转换过程中开启AIPP功能,可以在推理之前就完成所有的数据处理,专门的加速模块实现并保证性能,可以不让图像处理成为推理阶段的瓶颈,图像处理方式比较灵活。
功能 解释 改变图像尺寸 Crop(抠图)、补边(Padding) 色域转换 转换图像格式
静态AIPP与动态AIPP
把模型转换过程中集成的“AIPP”叫做“静态AIPP”,是因为这部分AIPP能力已经被融入到om中了,没法在编程角度通过代码控制。与之相对应的还有“动态AIPP”,即编写代码能够控制的AIPP。两者之间的区别如下:
DVPP与AIPP对比
DVPP AIPP 对输出数据的尺寸是否对齐 是 否
7.7 HCCL
HCCL华为通信集合库,在分布式训练中为不同昇腾AI处理器之间提供高效的数据传输能力。
昇腾 应用使能 ,MindX包含“2+1+X”,深度学习使能 MindX DL 、智能边缘使能 MindX Edge、1个优选模型库 ModelZoo和X个行业SDK。
8.1 MindX DL
MindX DL(昇腾深度学习组件)是支持 Atlas 800 训练服务器、Atlas 800 推理服务器的深度学习组件实现 深度学习使能 ,提供昇腾AI处理器资源管理和监控、昇腾AI处理器优化调度、分布式训练集合通信配置生成等基础功能。数据中心计算资源统一管理与调度,使能合作伙伴快速开发深度学习系统。
8.2 MindX Edge
MindX Edge(昇腾智能边缘组件)智能边缘使能,提供边缘AI业务容器的全生命周期管理能力,为客户提供边云协同的边缘计算解决方案,使能客户快速构建边缘 AI 业务。轻量化的边缘计算资源管理运维,使能行业客户快速搭建边云协同推理平台。
8.3 ModelZoo
ModelZoo优选模型库,为开发者提供丰富的场景化优选预训练模型,为开发者解决了模型的选型难、训练难、优化难等问题。
8.4 MindX SDK
MindX SDK行业AI应用开发套件,面向行业场景的完整AI开发套件,提供极简易用的API及图形界面,使能开发者以极少代码快速开发行业AI应用。比如,mxVision,行业 SDK mxManufacture,AI 超算、交易、医疗、金融、电力……用尽量少的代码,打通一个全流程。
Atlas系列硬件
昇腾计算
Atlas是基于Ascend系列AI处理器,通过丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案。
Altas行业解决方案
平安城市;
平安城市; 智慧网点;
智慧网点; 高压线无人巡检;
高压线无人巡检; 省界收费站“自由流”;
省界收费站“自由流”; 智能推荐系统;
智能推荐系统; 智慧营业厅;
Atlas 200 AI加速模块(型号:3000)
[白皮书(渠道版)] 华为Atlas 200 AI加速模块 技术白皮书(型号 3000)
Atlas 200 AI加速模块(型号:3000)集成了 昇腾310 AI处理器 ,可以在 端侧 实现目标识别、图像分类等,广泛用于智能摄像机、机器人、无人机等端侧AI场景。
Atlas 200 DK(型号:3000)
[白皮书(渠道版)] 华为Atlas 200 DK 开发者套件 技术白皮书(型号 3000)08
Atlas 200开发者套件(型号:3000),又称Atlas 200 Developer Kit(简称Atlas 200 DK),是以Atlas 200 AI加速模块为核心的开发者板形态的终端类产品,集成了 昇腾310 AI处理器 。 多级算力配置,支持22/16/8 TOPS三级算力。
经验
Atlas 200DK是rc形态,是8个aicpu core分了4个当host用,性能较差。
Atlas 300I 推理卡
[白皮书(渠道版)] 华为Atlas 300I 推理卡 技术白皮书 (型号 3010)
[白皮书(渠道版)] 华为Atlas 300I 推理卡 技术白皮书 (型号 3000)
Atlas 300I 推理卡(型号:3000/3010)基于 昇腾310 AI处理器 ,提供超强AI推理性能,单卡算力可达88 TOPS INT8,支持80路高清视频实时分析,可广泛应用于智慧城市、智慧交通、智慧金融等场景。
Atlas 300I Pro 推理卡
[白皮书(渠道版)] 华为Atlas 300I Pro 推理卡 技术白皮书
[白皮书(渠道版)] 华为Atlas 300I Pro 推理卡 安全技术白皮书 01
Atlas 300I Pro 推理卡基于 昇腾710 AI处理器 ,融合“通用处理器、AI Core、编解
码”于一体,提供超强AI推理、目标检索等功能,具有
超强算力、超高能效、高性能特征检索、安全启动等优势,可广泛应用于OCR识别、语音分析、搜索推荐、内容审核等诸多AI应用场景。
Atlas 300I Duo 推理卡
Atlas 300I Duo 推理卡融合“通用处理器、AI Core、编
解码”于一体,提供AI推理、视频分析等功能,具有超
强算力、超高能效、高性能视频分析等优势,可广泛应用于互联网、智慧城市、智慧交通等多场景,支持检索聚类、内容审核、OCR识别、语音分析、视频分析等多应用。
Atlas 300V Pro 视频解析卡
Atlas 300V Pro 视频解析卡集成了 昇腾710 AI处理器 ,融合“通用处理器、AI Core、编解码”于一体,提供超强AI推理、视频图片编解码等功能,具有超大视频解析路数、高性能特征检索、安全启动等优势,支持128路高清视频实时分析,可广泛应用于智慧城市、智慧交通、智慧园区、智慧金融等诸多AI行业场景。
Atlas 300T 训练卡(型号:9000)
Atlas 300T 训练卡(型号:9000)是基于 昇腾910 AI芯片 ,配合服务器,为数据中心提供强劲算力的训练卡,单卡可提供280 TFLOPS FP16算力,加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点,标准全高3/4长PCIe卡,适用于通用服务器。满足运营商、互联网、金融等需要人工智能训练以及高性能计算领域的算力需求。
Atlas 300T Pro 训练卡
[白皮书(渠道版)] Atlas 300T 训练卡 技术白皮书 (型号9000)
华为Atlas 300T Pro训练卡配合服务器,为数据中心提供强劲算力的AI加速卡,单卡可提供最高280 TFLOPS FP16算力,加快深度学习训练进程。Atlas 300T Pro具有最强算力、最高集成、最快带宽等特点,满足互联网、运营商、金融等需要人工智能训练以及高性能计算领域的算力需求。
Atlas 500 (型号:3000)智能小站
[白皮书(渠道版)] 华为Atlas 500 智能小站 技术白皮书(型号 3000, 3010)
[彩页(客户版)] 华为Atlas 500智能小站 产品彩页
[白皮书(渠道版)] 华为Atlas 500 智能小站 安全技术白皮书(型号 3000, 3010)02
Atlas 500智能小站(型号:3000)集成了 昇腾310 AI处理器 ,是面向边缘应用的产品,具有超强计算性能、体积小、环境适应性强、易于维护和支持云边协同等特点,可以在边缘环境广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
Atlas 500 Pro (型号:3000)智能边缘服务器
[白皮书(渠道版)] Atlas 500 Pro 智能边缘服务器 技术白皮书(型号 3000)
Atlas 500 Pro 智能边缘服务器(型号:3000)集成了 昇腾310 AI处理器 ,是面向边缘应用的产品,具有超强计算性能、高环境适应性、易于部署维护和支持云边协同等特点。可以在边缘场景中广泛部署,满足在安防、交通、社区、园区、商场、超市等复杂环境区域的应用需求。
Atlas 800 (型号:3000)推理服务器
[白皮书(渠道版)] Atlas 800 推理服务器 技术白皮书(型号 3000)
Atlas 800 推理服务器 (型号:3000)是 基于Kunpeng鲲鹏处理器+华为昇腾310处理器 的推理服务器,最大可支持8个
Atlas 300I/V Pro,提供强大的实时推理能力和视频分析
能力,广泛应用于中心侧AI推理场景。
Atlas 800 (型号:3010)推理服务器
[白皮书(渠道版)] Atlas 800 推理服务器 技术白皮书(型号 3010)
Atlas 800 推理服务器 (型号:3010)是 基于Intel处理器+华为昇腾310处理器 的推理服务器,最多可支持7个Atlas 300I/V Pro,支持896路高清视频实时分析,广泛应用于中心侧AI推理场景。
Atlas 800 (型号:9000)训练服务器
[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号 9000,液冷)
[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号9000, 风冷)
Atlas 800 训练服务器(型号:9000)是 基于华为鲲鹏920+昇腾910处理器 的AI训练服务器,具有 最强算力密度、超高能效 与 高速网络带宽 等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。
Atlas 800 (型号:9010)训练服务
[白皮书(渠道版)] Atlas 800 训练服务器 技术白皮书 (型号9010)
Atlas 800 训练服务器(型号:9010)是 基于华为昇腾910+Intel Cascade Lake处理器 的AI训练服务器,具有最强算力密度、高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。
Atlas 900 PoD(型号:9000)AI训练集群基础单元
[白皮书(渠道版)] Atlas 900 PoD 技术白皮书 (型号9000, 直流)
[白皮书(渠道版)] Atlas 900 PoD 技术白皮书 (型号9000, 交流)
[白皮书(渠道版)] Atlas 900 计算节点 技术白皮书 (风冷)
[白皮书(渠道版)] Atlas 900 计算节点 技术白皮书 (液冷)
Atlas 900 PoD(型号:9000)是 基于华为昇腾910+ 鲲鹏920 处理器 的AI训练集群基础单元,具有超强AI算力、更优AI能效、最佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。
Atlas 900 AI集群
Atlas 900 AI集群代表了当今全球的算力巅峰,它 由数千颗昇腾910 AI处理器构成 ,通过华为集群通信库和作业调度平台,整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口,充分释放昇腾910的强大性能。其总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。经实测,Atlas 900可以在60秒完成基于Resnet-50模型训练,比第2名快15%。这可以让研究人员更快的进行图像、语音的AI模型训练,让人类更高效的探索宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。
Q: Atlas 800 (型号:9000)与(型号:9010)的区别?