国内某科研类高校

才云科技助力国内某大型科研院校,打造了一套高性能计算(HPC)集群平台管理系统,为高校 AI 项目的数据管理、算法模型、模型上线提供一站式便捷服务。

所属行业

教育业

客户简介

近年来,随着全球 AI 技术屡现突破性进展,AI 已成为新一轮产业变革的核心驱动力。某高校是由上海市人民政府和中国科学院共同建立的一所“小规模、高水平、国际化的研究型、创新型”大学。自建校以来,该高校依托 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深度学习任务,促进 AI 与 HPC 的融合提出了更高的要求。

为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言处理、深度学习、图形学等领域的优势,该高校联手才云科技,为 HPC 集群打造了一套平台管理系统,为提升集群计算效率、提高资源利用率、降低成本提供了极大支持。

面临挑战

​物理资源零散管理

该高校拥有浦东浦西两个数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 300 块 GPU、大量 CPU 及内存资源。但这些资源过于分散,缺乏有效的统一管理工具和高效的统筹机制。

资源申请不规范

该高校的资源申请流程过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源依靠人工手动分配,无法实现即租即用,整个过程耗时耗力。

资源利用率低

该高校的服务器资源只能以整机的方式进行分配,存在细粒度过粗的问题。例如一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,导致资源使用不饱和,造成浪费。

​资源回收困难

任务结束后,由于需要人工手动清理机器遗留数据,该高校的 HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题。

解决方案

针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 资源管理软件系统,实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深度学习项目分布式训练能力。

  • 创建深度学习平台方案

    · HPC 集群平台管理系统集数据管理、算法模型、模型上线等功能于一体,提供深度学习全流程工程化管理能力,帮助高校简化科研项目流程管理、加速项目开展进度。

    · HPC 集群平台管理系统集成 infiniband 网络,为 AI 项目运算速度提供保障。

    · HPC 集群平台管理系统集成并行存储系统,安全可靠,读写性能和带宽也更出色,帮助高校显著提高运算效率。

  • 构建资源池,统一管理物理资源

    才云科技的 HPC 集群平台管理系统将两个中心的服务器资源统一纳管至系统环境内,实现了计算资源的平台级统筹管理。系统可以对计算资源做细粒度划分,提供资源、任务的可视化监控及灵活高效的服务器上下线功能,帮助高校大幅提升资源利用率。

  • 细化申请流程,自动回收资源

    才云科技的 HPC 集群平台管理系统具备用户权限管理体系,实现了资源按系统管理员、教研室管理员、学生(教师)三级用户划分。全量集群资源由系统管理员统一管理,各教研室管理员申请资源后,再按需分配给学生、教师。任务结束后,系统管理员在 HPC 资源管理可视化界面调低额度或关闭教研室账号,即可完成资源回收。

  • 提供自动化运维能力,提高资源利用率

    为了提升 HPC 集群管理的自动化水平,才云科技 HPC 集群平台管理系统提供应用、AI 模型任务开发运维过程中的一些常见工具,如用户环境隔离管理、任务生命周期管理、容器生命周期管理、代码开发管理、存储管理、镜像管理、监控管理、日志管理、配置管理等,大大减轻人员工作负担。

客户价值

  • HPC 集群平台管理系统为该高校降低人力成本、减少浪费、提高 HPC 集群资源利用率提供着巨大支持。

  • 在平台管理系统的支持下,人工智能云平台帮助该校高校加速 AI 的研发和成果落地,助力该高校的 AI 科研成果走向国际舞台。

结合谷歌十年容器实践,基于国内大型企业落地经验打造 的容器集群智能云平台。

立即体验