该模块是分布式训练CRD的控制器,管理分布式训练容器生命周期,为分布式训练容器注入其他容器ip。
安装如下软件环境。
git clone https://codeup.teambition.com/zhejianglab/distribute-train-operator.git
# 进入项目根目录
cd distribute-train-operator
# 构建,生成的 jar 包位于 ./target/distribute-train-operator-1.0.jar
mvn clean compile package
部署过程参看文档:部署 分布式训练operator