北京博伟智鸿投资有限公司
当前位置: 首页 > 新闻中心  > 企业新闻

启明星 | 鲲云科技发布全球首款数据流 AI 芯片,实现 T4 最高 3.91 倍的实测性能

2020/7/10 16:44:09

鲲云科技成立于 2016 年 1 月,提供物联网移动及野外节点人工智能芯片及解决方案,让前端图像捕捉设备无需连接后台服务器即可进行本地化人工智能,自主研发的雨人平台支持对图像采集节点进行专业分析,用以支持人工判断。鲲云科技聚焦于人工智能时代,为物联网中如毛细血…

鲲云科技成立于 2016 年 1 月,提供物联网移动及野外节点人工智能芯片及解决方案,让前端图像捕捉设备无需连接后台服务器即可进行本地化人工智能,自主研发的雨人平台支持对图像采集节点进行专业分析,用以支持人工判断。

鲲云科技聚焦于人工智能时代,为物联网中如毛细血管般的应用前端装上大脑, 提供物联网人工智能芯片及解决方案。

近日,鲲云科技在深圳举行 CAISA 芯片产品发布会,发布全球首款数据流 AI 芯片 CAISA,定位于高性能 AI 推理,已完成量产。鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片利用率上提升了最高 11.6 倍。第三方测试数据显示仅用 1/3 的峰值算力,CAISA 芯片可以实现英伟达 T4 最高 3.91 倍的实测性能。鲲云科技的定制数据流技术不依靠更大的芯片面积和制程工艺,通过数据流动控制计算顺序来提升实测性能,为用户提供了更高的算力性价比

此次发布是华强北之光黑科技系列发布的首场活动。深圳市人民政府副市长、党组成员聂新平,福田区委副书记、区长黄伟,市科技创新委员会副主任钟海、市工信局副局长徐志斌、市科协党组成员、常务委员孙楠和福田区委常委、副区长舒毓民、原政协深圳市委员会副主席、党组成员、深圳市源创力离岸创新中心理事长王学为等政府领导及山东产业技术研究院副院长雷斌、深圳市源创力离岸创新中心总裁周路明、英特尔 PSG 中国区总经理、销售总监 Tiffany Xia 夏迎丽等合作伙伴出席发布会。聂新平、舒毓民同志分别为活动致辞。中国科协党组成员、书记处书记宋军,鲲云科技联合创始人兼首席科学家、英国皇家工程院院士、美国电子电气工程师学会(IEEE)会士、英国计算机学会(BCS)会士 Wayne Luk 陆永青院士,浪潮信息副总裁、浪潮 AI & HPC 总经理刘军,清华大学信息科学技术学院副院长、电子工程系主任、深鉴科技联合创始人汪玉教授,戴尔科技集团全球资深副总裁、大中华区企业解决方案总经理曹志平,鹏城实验室高级顾问、党委书记、清华大学计算机系教授、学位委员会主席、CCF 会士杨士强,Intel Tiffany Xia 夏迎丽,中国信息通信研究院云大所人工智能部主任、工信部人工智能技术和应用评测实验室常务副主任、中国人工智能产业发展联盟(AIIA)总体组组长、南京新一代人工智能研究院院长孙明俊等嘉宾为鲲云成功实现全球首款数据流 AI 芯片量产送上了祝福和寄语。

I 超高芯片利用率,定制数据流芯片架构完成 3.0 升级

此次发布的 CAISA 芯片采用鲲云自研的定制数据流芯片架构 CAISA 3.0,相较于上一代芯片架构,CAISA3.0 在架构效率和实测性能方面有了大幅的提升,并在算子支持上更加通用,支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。CAISA3.0 在多引擎支持上提供了 4 倍更高的并行度选择,架构的可拓展性大大提高,在 AI 芯片内,每一个 CAISA 都可以同时处理 AI 工作负载,进一步提升了 CAISA 架构的性能,在峰值算力提升 6 倍的同时保持了高达 95.4% 的芯片利用率,实测性能线性提升。同时新一代 CAISA 架构对编译器 RainBuilder 的支持更加友好,软硬件协作进一步优化,在系统级别上为用户提供更好的端到端性能。

CAISA3.0 架构图

CAISA3.0 架构继续保持在数据流技术路线的全球领先地位,指令集架构采用冯诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA 架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元,并采用动态配置方式保证对于人工智能算法的通用支持,突破指令集技术对于芯片算力的限制。此次升级,CAISA 架构解决了数据流架构作为人工智能计算平台的三大核心挑战

1. 高算力性价比:在保持计算正确前提下,通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限,让芯片内的每个时钟、每个计算单元都在执行有效计算;

2. 高架构通用性:在保证每个算法在 CAISA 上运行能够实现高芯片利用率的同时,CAISA3.0 架构通用支持所有主流 CNN 算法;

3. 高软件易用性:通过专为 CAISA 定制的编译工具链实现算法端到端自动部署,用户无需底层数据流架构背景知识,简单两步即可实现算法迁移和部署,降低使用门槛。

具体来讲,鲲云 CAISA3.0 架构的三大技术突破主要通过以下的技术方式实现:

1. 高算力性价比:时钟级准确的计算

CAISA3.0 架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度的减少硬件计算资源的空闲时间。CAISA3.0 架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。上述设计使 CNN 算法的计算数据在 CAISA3.0 内可以实现不间断的持续运算,最高可实现 95.4% 的芯片利用率,在同等峰值算力条件下,可获得相对于 GPU 3 倍以上的实测算力,从而为用户提供更高的算力性价比。

2. 高架构通用性:流水线动态重组

CAISA3.0 架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过 CAISA 架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA 架构中的数据流连接关系和运行状态都可以被自动化动态配置,从而生成面向不同 AI 算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于 CAISA3.0 架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。

3. 高软件易用性:算法端到端自动化部署

RainBuilder 架构图

专为 CAISA3.0 架构配备的 RainBuilder 编译工具链支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置,简单两步即可实现算法快速迁移和部署。RainBuilder 编译器可自动提取主流 AI 开发框架(TensorFlow,Caffe,PyTorch,ONNX 等)中开发的深度学习算法的网络结构和参数信息,并面向 CAISA 结构进行优化;工具链中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的 ATPI 接口,运行时可以基于精确的 CAISA 性能模型,实现算法向 CAISA 架构的自动化映射,同时提供可以被高级语言直接调用的 API 接口;最底层的驱动可以实现对用户透明的硬件控制。RainBuilder 工具链使用简单,部署方便,通用性强,可以让用户快速和低成本的部署和迁移已有算法到 CAISA 硬件平台上。

I 首款量产数据流 AI 芯片,CAISA 带来 AI 芯片研发新方向

CAISA 芯片

作为全球首款采用数据流技术的 AI 芯片,CAISA 搭载了四个 CAISA3.0 引擎,具有超过 1.6 万个 MAC(乘累加)单元,峰值性能可达 10.9TOPs。该芯片采用 28nm 工艺,通过 PCIe3.0×4 接口与主处理器通信,同时具有双 DDR 通道,可为每个 CAISA 引擎提供超过 340Gbps 的带宽。

CAISA 芯片架构图

作为一款面向边缘和云端推理的人工智能芯片,CAISA 可实现最高 95.4% 的芯片利用率,为客户提供更高的算力性价比。CAISA 芯片具有良好的通用性,可支持所有常用 AI 算子,通过数据流网络中算子的不同配置和组合,CAISA 芯片可支持绝大多数的 CNN 算法。针对 CAISA 芯片,鲲云提供 RainBuilder3.0 工具链,可实现推理模型在芯片上的端到端部署,使软件工程师可以方便的完成 CAISA 芯片在 AI 应用系统中的集成。

鲲云科技创始人牛昕宇发布全球首款数据流 AI 芯片

I 高算力性价比的 AI 计算平台星空加速卡系列产品发布

星空加速卡系列产品图

发布会上,鲲云科技创始人 CEO 牛昕宇博士还发布了基于 CAISA 芯片的星空系列边缘和数据中心计算平台, X3 加速卡和 X9 加速卡,并公布了由人工智能产业技术联盟(AIIA)测试的包括 ResNet50,YOLO v3 等在内的主流深度学习网络的实测性能。

鲲云科技创始人牛昕宇发布星空 X3 加速卡

星空 X3 加速卡是搭载单颗 CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的 PCIe 板卡。得益于其轻量化的规格特点,X3 加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足边缘和高性能场景中的 AI 计算需求。相较于英伟达边缘端旗舰产品 Xavier,X3 可实现 1.48-4.12 倍的实测性能提升

X3 vs Xavier 芯片利用率对比图

X3 vs Xavier 性能对比图

X3 vs Xavier 延时对比图

鲲云科技创始人牛昕宇发布星空 X9 加速卡

星空 X9 加速卡为搭载 4 颗 CAISA 芯片的深度学习推断板卡,峰值性能 43.6TOPS,主要满足高性能场景下的 AI 计算需求。同英伟达旗舰产品 T4 相对,X9 在 ResNet50, YOLO v3 等模型上的芯片利用率提升 2.84-11.64 倍。在实测性能方面,X9 在 ResNet50 可达 5240FPS,与 T4 性能接近,在 YOLO v3 U-Net Industrial 等检测分割网络,实测性能相较 T4 有 1.83-3.91 倍性能提升。在达到最优实测性能下,X9 处理延时相比于 T4 降低 1.83-32 倍。实测性能以及处理延时的大幅领先,让数据流架构为 AI 芯片的发展提供了提升峰值性能之外的另一条技术路线。

X9 vs T4 芯片利用率对比图

X9 vs T4 性能对比图

X9 vs T4 延时对比图

鲲云科技通过 CAISA 数据流架构提高芯片利用率,同样的实测性能,对芯片峰值算力的要求可大幅降低 3-10 倍,从而降低芯片的制造成本,为客户提供更高的算力性价比。目前星空 X3 加速卡已经实现量产,星空 X9 加速卡将于今年 8 月推出市场。鲲云科技成为国内首家在发布会现场披露 Benchmark 的 AI 芯片公司。

I 商业落地先行,鲲云加速卡实现多领域规模落地

作为技术驱动的 AI 芯片公司,鲲云科技自成立以来一直注重商业落地,目前鲲云科技已与多家行业巨头达成战略合作,成为英特尔全球旗舰 FPGA 合作伙伴,在技术培训、营销推广以及应用部署等方面进行合作;与浪潮、戴尔达成战略签约,在 AI 计算加速方面开展深入合作;与山东产业技术研究院共建山东产研鲲云人工智能研究院,推进人工智能芯片及应用技术的规模化落地。明星产品 “星空” 加速卡已在电力、教育、航空航天、智能制造、智慧城市等领域落地。自 2016 年成立至今,鲲云科技已经完成了天使轮,Pre-A 轮及 A 轮融资,设有深圳、山东、伦敦研发中心。2018 年成立人工智能创新应用研究院,定位于建立人工智能产业化技术平台,支持人工智能最新技术在各垂直领域快速实际落地,启动鲲云高校计划,开展人工智能课程培训和科研合作。除与 Intel 合作进行人工智能课程培训外,鲲云人工智能应用创新研究院已同帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学、香港城市大学等成立联合实验室,在定制计算、AI 芯片安全、工业智能等领域开展前沿研究合作。

对标芯片数据来源:

  1. T4 性能数据来源:https://developer.nvidia.com/deep-learning-performance-training-  inference#resnet50-latency

  2. Xavier 性能数据来源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks

  3. ResNet50,ResNet152 算法网络来源:https://github.com/tensorflow/models/tree/master/research/slim

  4. YOLO 算法网络来源:https://pjreddie.com/darknet/yolo/

  5. SSD-ResNet50 算法网络源:https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16

  6. UNet Industrial 算法网络来源 https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16

  7. 模型参考

https://github.com/pushyami/yolov3caffe/blob/master/deploy.prototxt


相关资讯

  • 国研智库创始人朱敏博士与天津临港股权投资基金管理有限公司总经理郭伟先生一行莅临我司参观调研

    3月30日上午,国研智库创始人朱敏博士与天津临港股权投资基金管理有限公司总经理郭伟先生一同莅临我司考察访问。 三方就围绕智库平台,打造科技文化成果转化基金与产业地产的投资合作事宜进行探讨,博伟投资合伙人赵晨详细介绍了博伟投资在各地引导基金与产业基金的设立经…

    2018/4/3 17:12:11
  • 安徽省淮北市政府代表一行莅临我司参观调研

    今天,安徽省淮北市人民政府副市长陈英、林业局局长陶士军 、中国科技产业化促进会吴雪慧主任一行莅临我司参观调研,博伟投资合伙人赵晨及相关负责人参加了讨论会。讨论会上,赵晨详细介绍了博伟投资的投资体系,并介绍了博伟投资的优势项目案例,同时展示了博伟投资大文…

    2018/3/13 19:10:26
  • 博伟投资王迎宝:体外诊断行业,千亿蓝海市场正起航!

    2016年全球体外诊断市场为602.2亿美元,预计2021年将达到787.4亿美元体外诊断是国内最大的医疗器械细分领域,市场保持约20%的高增长,平均毛利率达到60%。高成长性、高毛利率吸引了资本市场关注。国家重点扶持创新型医疗器械2018年1月30日,国家食药总局、科技部联合发布…

    2018/2/8 11:25:57
  • 博伟投资荣获“2017年度产业影响力医疗健康领域投资机构TOP10”

    今天,NBI产业影响力评选暨颁奖盛典在京举行,博伟投资凭借在医疗健康产业指数优势,荣获“2017年度产业影响力医疗健康领域投资机构TOP10”。NBI产业影响力投资机构评选,旨在发现影响产业进步的力量,表彰在引导产业发展,推动产业进步方面最有判断力、表现最活跃的投资…

    2018/1/16 20:46:44