搜索: 标题

背景:
阅读详情

上海交大与华为联合发布“数据密集型超算示范中心”

日期:2021年07月11日 20:42 来源:观察者网 作者:佚名

【文/观察者网 周远方 编辑/尹哲】7月9日,在2021世界人工智能大会(WAIC2021)上,上海交通大学与华为公司联合发布了“数据密集型超算示范中心”。这是双方继4月份联合成立“高性能计算&存储技术联合创新中心”以来的又一重磅合作。

上海交通大学党委常委、副校长奚立峰,上海交通大学网络信息中心副主任林新华,华为数据存储与机器视觉产品线总裁周跃峰博士等嘉宾出席并见证。

上海交大与华为联合发布“数据密集型超算示范中心”

何谓“数据密集型超算”?

华为数据存储与机器视觉产品线总裁周跃峰介绍,近年来,随着新技术的应用和新兴业务的快速发展,超算业务发生了重大改变,现在参与计算的数据越来越多,比如说一辆自动驾驶汽车,每天训练所需数据大约60 TB,卫星遥感遥测、天气预报预测等等领域的超级计算需要大量的数据参与存储计算,传统的超算架构,已经远远不能够满足现在新型应用的需求。这也是“数据密集型超算”这一创新理念的由来。

上海交通大学网络信息中心副主任林新华介绍,所谓“数据密集型超算”是相对于传统超算而言的。在本世纪初,配置超算时,存储基本上是计算系统的附属品,一般会花60%-70%的精力来配置CPU、网络等等,最后再花10%-20%的精力配置调试数据和文件系统。

但是,从近10年的发展来看,数据的重要性慢慢超过了算力本身。以一个比较通俗的例子来说,如果某一天我们的手机丢了,可能最焦虑的是手机上的数据丢了,手机本身可能也会让人心痛,但硬件是可以用钱买到的,而数据丢了可能会很麻烦。所以,以数据为中心打造算力的理念,现在变越来越重要。

数据密集型超算以数据为核心来打造算力,我们先配置好一个数据量在20P左右的庞大的数据池,不管是x86的算力平台还是arm的算力平台,都可以插入数据池中。底层的数据池是稳定的,也可以扩容,算力可以灵活配置,这样,不管是对用户还是运维来说,都带来极大的便利性。

对用户来说,有时候有些数据需要用不同的算力计算,有时候需要用x86算完以后,再用人工智能来算,过去,这只能把大量数据从一台超算拷贝到另一台超算,非常麻烦,现在,数据池是统一的,算力只是上面插入的一个工具,可以随时切换。“这就好比吃饭”,林新华说,“不同的算力相当于勺子、叉子、筷子,不管用什么工具,关键是要吃到下面的饭”。

对运维来说,过去,如果配置了一台新的超算系统,就必需把老的系统上的数据都迁移到新的系统,对超算动辄数百TB,甚至PB的数据量来说,这个过程费时费力,还很有可能造成数据错误。数据密集型超算从理念上颠覆了这种方式,数据层不需要动,算力就像插件一样,可以根据需要插入和调换。

对存储提出更高要求

虽然说数据密集型超算的便利性显而易见,但从存储技术上,就提出了很高的要求。

林新华介绍,交大的“数据密集型超算示范中心”主要基于华为OeanStor Pacific高密专用硬件,其并发量和访问性都相当好,目前,交大的几个算力平台的CPU核总共有30000多个,在同一个并行文件系统中都可以稳定运行。

周跃峰介绍,存储作为超级计算系统的数据底座,在传统超算HPC向数据密集型超算HPDA升级的过程当中,我们需要解决几个挑战,第一,数据量越来越大,第二,数据的类型越来越多,参与计算的数据类型,从过去的二进制文件到今天的非结构化数据,类型层出不穷。第三,不同类型的数据在计算的过程当中需要进行流动,而且需要实现多种协议共享一份数据,避免数据耗时费力的迁移。为了解决这些挑战,我们和上海交大一起共同打造了数据密集型超算示范区,希望为这些世界级的难题提供答案,提供我们商业级的解决方案。

华为方面进一步介绍,首先,解决海量数据存得下的问题,华为OeanStor Pacific高密专用硬件,基于全新的高密架构设计,提供更高的容量利用率,在有限的机房空间里存下更多数据,更好地满足海量数据增长的需要。

第二,支撑混合负载问题,交大的超算平台,有时并行任务高达50个,有的任务要求频繁的小数据量的读取,也有的任务要求大文件的快速读取,因此需要性能更加均衡的存储。华为OceanStor Pacific推出了新一代分布式并行文件系统,同时支持高带宽和高IOPS,通过与分布式并行客户端(DPC)的密切配合,打破单流和单客户端的性能瓶颈,有效应对混合工作负载的挑战。

第三,由于数据量的增大、数据应用的复杂化,数据在不同环节、不同系统间高效流动是数据密集型超算面临的一个主要挑战。华为推出多协议互通能力。多个存储服务同时访问一份数据,支持NFS、CIFS、HDFS和S3等协议的按需部署,通过其中一种协议写入的数据,无需迁移即可被其他协议读取,提高跨环节、跨系统的数据分析效率。

周跃峰表示,华为希望在世界中国数字化的浪潮过程当中,特别是在中国东数西存、东数西算的大背景下,通过上海交大和华为公司的合作,能够尽快使最新研究成果产业化、商业化,帮助国家各个行业真正实现数字化,真正实现超级计算走向平民化,解决我们生活生产当中的各种问题。
 
中国高校首套arm架构超算

除了实践数据密集型理念,上海交大的“数据密集型超算示范中心”也是国内高校建设的第一台arm架构超算。

林新华介绍,虽然上海交大一直以来在超算方面投入领先,在2018年建成了在国内高校中排名前列的x86超算,但运行两年多之后,整个平台使用率已经达到90%以上,因此,考虑把计算能力进一步扩容。

林新华介绍,经过多方调研,发现中国的天河E级的原型机、目前全球公开算力排名第一的日本富岳等超算都是基于arm架构,前景广阔。新超算从去年12月份开始建设,到今年4月安装调试完成,共有约100个节点,12800核,目前已把原先x86上运行的30-40%应用导流到arm超算。

林新华坦言,作为国内高校中首个建设arm超算的单位,在建设和调试过程中,不可避免地踩过一些技术“坑”,归纳起来主要有四点:

第一,有没有软件,目前,arm生态仍然在起步阶段,许多用户需要的应用在平台上还没有,针对这个问题,上海交大与华为合作,已成功编译安装十几种常用应用软件;

第二,算的对不对,计算结果是否可信,这一般通过两种途径验证,一是仿真计算结果是否符合实验结果,二是arm平台计算结果是否与x86平台一致,在普通人看来,这可能不是问题,但是在科学计算领域,确实需要复杂的调试;

第三,是否是高性能,这仍然需要调试,arm平台在未经调试的情况下,性能比x86平台弱,但调试后明显加强;

第四,用户使用是否方便,目前arm对每个人来说,都是既熟悉又陌生,因为我们的手机都是arm架构,但确实没有使用过arm架构的超算,我们通过培训、讲座、编写教材等方式,让用户快速入门使用。

经过四个月的努力,目前在上海交大arm超算平台上,首批测试了生命科学、材料科学、气象科学等8个领域的应用,其中5个应用的结果正确性已经完成验证过。

通过项目合作培养人才

林新华还强调,在与华为的合作中,除了技术层面的合作,在人的培养教育方面同样重要,上海交大作为一所高校,本职工作就是教书育人,在“数据密集型超算示范中心”项目上,具体要培养两种人,一种是懂“数据密集型”和arm架构超算的用户,另一种是懂得安装调试超算的人才,也希望能够与同行多交流经验。

在上海交通大学党委常委、副校长奚立峰看来,人才培养尤其重要,去年,任正非将上海交大作为国内高校访问的第一站,他希望大学像灯塔一样照亮自己的学生。上海交通大学也一直在这样做,非常愿意把教授,以及本科、硕士、博士毕业生输送到华为,双方都愿意在人才培养方面做更多的合作和贡献。


本文地址:https://www.24faw.comn83637c26.aspx,转载请注明24FA出处。
| lantu |
标签:
评论: 上海交大与华为联合发布“数据密集型超算示范中心” - 网民评论 全部评论 0
姓名: 字数
点评:
评论声明:
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规。
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。

    • 本周热门
    • 今日热门

    首页 焦点(3235) 热点(2237) 新闻(9331) 国际(3186) 娱乐(2895) 视频(131) 综艺(1808) 影视(3203) 音乐(2080) 民生(1918) 行业(71) 财经(620) 股票(180) 时装(9) 商机(19) 女性(396) 男士(75) 美容(42) 时尚(28) 珠宝(40) 饰品(25) 皮具(3) 品牌(12) 保健(58) 健康(263) 养生(103) 医学(111) 母婴(113) 亲子(56) 旅游(132) 购物(11) 美食(58) 创业(84) 社会(6729) 观点(843) 房产(210) 汽车(86) 家居(21) 安防(40) 环保(51) 科技(441) 展会(4) 数码(123) 足球(196) 体育(487) 教育(872) 高校(1032) 法制(963) 军事(449) 游戏(190) 美女(10160) 欧美(28) 运营(18) 网络(257) 读书(288) 励志(175) 灵异(52) 奇闻(156) 趣闻(152) 历史(137) 人物(85) 星相(383) 艺术(46) 两性(75) 情感(151) 文学(296) 武林(255) 道教(61) 佛教(146) 广州(134) 地区(13)