才云案例 | HPC 与 AI 融合,为什么这家上海的一流高校做到了?

2019-07-10

某高校是由上海市人民政府和中国科学院共同举办、全新建立的一所“小规模、高水平、国际化的研究型、创新型”大学。它借鉴了世界一流的理工科大学的发展经验,从理工科入手培养各科专业人才,推进研究成果在各行业落地。


作为人工智能高校联盟的倡导者之一,为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言处理、深度学习、图形学等领域的优势,该高校联手才云科技,为高性能计算(HPC)集群打造了一套平台管理系统,为提升集群计算效率、提高资源利用率、降低成本提供了极大支持。


01AI 学科建设需从 HPC 起步


高校 HPC 集群是一种为学校密集型科研任务提供高性能计算支持的计算硬件,通常计算速度要达到每秒万亿次级。作为科学研究不可或缺的计算工具,它在研究领域有着广泛的应用和巨大的影响力,也是衡量一所学校科研实力的重要指标之一。


自建校以来,该高校依托高性能 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深度学习任务,促进 AI 与 HPC 的融合提出了更高的要求


同时,为了承担更多国家级、地级科研课题,加快进行学科建设和人才培养,一些可预见的长期问题,如计算资源部署、使用现状与日益增长的科研任务需求之间的矛盾也亟需得到重视:

  • 物理资源管理零散。该高校在浦东浦西建有两个数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 300 块 GPU、大量 CPU 及内存资源。虽然规模庞大,但这些资源缺乏有效的统一管理工具,存在计算资源过于分散、缺乏高效统筹机制的问题;
  • 资源申请不规范。为满足各学科科研需求,学校一般都有针对 HPC 集群使用的完善申请、使用手册。但该高校的资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力;
  • 资源利用率低。该高校的服务器资源只能以整机的方式分配给各教研室,例如一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;
  • 资源回收困难。任务结束后,由于需要人工手动清理机器遗留数据,该高校的 HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题。

02才云:构建 HPC 集群平台管理系统


针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 集群平台管理系统。


新系统实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深度学习项目的分布式训练能力。


才云科技打造的 HPC 集群平台管理系统



助力学科建设,创建深度学习平台方案


为了让高校 HPC 更好地承担 AI 科研项目,才云科技在 HPC 集群平台管理系统中集成了深度学习平台方案,能为高校数据管理、模型构建、模型上线提供一站式便捷服务。


具备深度学习全流程工程化管理能力。HPC 集群平台管理系统集数据导入、数据处理、模型开发、模型训练、服务上线、模型管理等功能于一体,可有效支持支撑语义分析、仿真模拟、图形渲染等深度学习科研项目,帮助高校简化项目流程管理、加速项目开展进度。


集成 infiniband 网络。infiniband 网络是用于 HPC 的计算机网络通信标准,具有极高吞吐量和极低延迟的特点,既可用作服务器与存储系统之间的直接或交换互连,也可用于存储系统之间的互连。考虑到深度学习对计算速度的苛刻要求,HPC 集群平台管理系统集成 infiniband 网络,为 AI 项目运算速度提供保障。


集成并行存储系统。在 HPC 中,传统 NFS 存储在集群不断增加时易出现存储瓶颈,而才云科技集成的并行存储则可以把后端的多套存储阵列统一成一个大的存储,不仅保证了可靠性,读写性能和带宽也更出色,帮助高校显著提高运算效率。


构建资源池,统一管理物理资源


为了破解该高校物理资源分散两地的难题,才云科技的 HPC 集群平台管理系统将两个中心的 124 台服务器资源统一纳管至系统环境内,实现了计算资源的平台级统筹管理。


系统可以依据主机生命周期、状态、性能对计算资源做细粒度划分,提供 CPU、GPU、内存、网络负载、任务运行数量等指标的可视化监控及灵活高效的服务器上下线功能,帮助高校大幅提升资源利用率,确保所有资源的安全可用。


细化申请流程,自动回收资源


才云科技的 HPC 集群平台管理系统具备用户权限管理体系,实现了资源按系统管理员、教研室管理员、学生(教师)三级用户划分。


全量集群资源由系统管理员统一管理,各教研室管理员先向系统管理员申请教研室所需资源,再按需分配给学生、教师。任务结束后,系统管理员只需在 HPC 资源管理可视化界面调低额度或关闭教研室账号,即可完成资源回收,资源申请回收效率大幅提升。


提供自动化运维能力,提高资源利用率


为了提升 HPC 集群管理的自动化水平,才云科技 HPC 集群平台管理系统提供应用、AI 模型任务开发运维过程中的一些常见管理能力,如用户环境隔离管理、任务生命周期管理、容器生命周期管理、代码开发管理、存储管理、镜像管理、监控管理、日志管理、配置管理等,大大减轻人员工作负担。


03展望未来


自上线后,才云科技的 HPC 集群平台管理系统为该高校降低人力成本、减少浪费、提高 HPC 集群资源利用率提供着巨大支持。在该系统的助力下,该高校的 AI 科研成果也在国际上高光频现,推动上海成为全国的 AI 科研高地。


更可喜的是,和才云科技的合作还让该高校看到了利用自建云开拓教育行业公有云的前景。为了更好地发挥数据中心的价值,高校可将暑假期间闲置的计算资源以公有云的形式对外提供 ,打造人工智能云,帮助更多高校和企业加速 AI 的研发和成果落地。

根据国务院 2017 年发布的人工智能发展规划,到 2020 年,中国人工智能总体技术和应用与世界先进水平同步,人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元。在当前这个实现 AI 加速发展的绝佳时刻,才云科技希望能帮助更多高校抓住机遇,艰苦奋斗,只争朝夕,助力中国 AI 赢在起跑线

结合谷歌十年容器实践,基于国内大型企业落地经验打造 的容器集群智能云平台。

立即体验
立即咨询