OpenI 启智社区

启智社区,确实给力

项目简介

 Octopus是一款面向多计算场景的一站式融合计算平台。平台主要针对AI、HPC等场景的计算与资源管理的需求来设计,向算力使用用户提供了对数据、算法、镜像、模型与算力等资源的管理与使用功能,方便用户一站式构建计算环境,实现计算。同时,向集群管理人员提供了集群资源管理与监控,计算任务管理与监控等功能,方便集群管理人员对整体系统进行操作与分析。

Octopus平台底层基于容器编排平台Kubernetes ,充分利用容器敏捷、轻量、隔离等特点来实现计算场景多样性的需求。
 

Octopus具有如下特点:

  • 一站式开发,为用户提供一站式AI、HPC计算场景的开发功能,通过数据管理、模型开发和模型训练,打通计算全链路;

  • 方便管理,为平台管理者提供一站式的资源管理平台,通过资源配置、监控、权限管控等可视化工具,大大降低平台管理者的管理成本;

  • 易于部署,Octopus 支持Helm方式的快速部署,简化复杂的部署流程;

  • 性能优越,提供高性能的分布式计算体验,通过多方面优化来保证各个环境的流畅运行,同时通过资源调度优化与分布式计算优化,进一步提高模型训练效率;

  • 兼容性好,平台支持异构硬件,如 GPU、NPU、FPGA 等,满足各种不同的硬件集群部署需求,通过支持多种深度学习框架,如 TensorFlow、Pytorch、PaddlePaddle 等,并可以通过自定义镜像方式支持新增框架。


Octopus适合在如下场景中使用:

  • 构建大规模 AI 计算平台;

  • 希望共享计算资源;

  • 希望在统一的环境下完成模型训练;

  • 希望使用集成的插件辅助模型训练,提升效率。