启智章鱼
启智章鱼
贡献者: 鹏城实验室、北京大学 许可证:启智开源许可证 官网:

启智章鱼项目(OPENI-OCTOPUS)是一个集群管理和资源调度系统,支持在GPU集群中运行AI任务作业(比如深度学习任务作业)。平台提供了一系列接口,能够支持主流的深度学习框架。

项目简介

OpenI-Octopus是一个集群管理工具和资源调度平台,由北京大学,西安交通大学,浙江大学和中国科学技术大学联合设计并开发, 由鹏城实验室、北京大学、中国科学技术大学和 AITISA 进行维护。 该平台结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。

特点

  • 基于Kubernetes开发资源调度平台,以镜像方式管理任务运行环境,一次配置随处可用;
  • 针对AI场景设计,AI场景的任务调度和任务启动有一定特殊性,如PS-Worker架构的分布式任务,需要至少满足两个角色的资源请求才能启动任务,否则即使启动任务也会造成资源浪费,而OpenI-Octopus针对类似场景做了很多设计和优化;
  • 插件式设计理念,以核心的业务流为基础,通过插件化的方式提供扩展性,不限制插件开发语言;
  • 易于部署,OpenI-Octopus支持helm方式的快速部署,同时支持服务的自定义部署;
  • 支持异构硬件,如GPU、NPU、FPGA等,由于采用OpenI-Octopus基于Kubernetes开发,可自定义不同异构硬件插件;
  • 支持多种深度学习框架,如 tensorflow、pytorch、paddlepaddle等,并通过镜像方式可方便的支持新增框架。

适用场景

  • 构建大规模AI计算平台;
  • 希望共享计算资源;
  • 希望在统一的环境下完成模型训练;
  • 希望使用集成的插件辅助模型训练,提升效率。