Slurm节点不能UP的解决方案
Slurm子节点一直不能启动的原因
执行下ntpdate node01再试试
我印象里 好像是那天重启之后等了半天 到了晚上再尝试就好了
直接解决的方案:
01执行下
systemctl start ntpd
ntpdate -d node01
其实还是时间同步的问题,修改ntp服务为本地的,在/etc/ntp.conf文件中增加:
以下的定义是让NTP Server和其自身保持同步,如果在/ntp.conf中定义的server都不可用时,将使用local时间作为ntp服务提供给ntp客户端。
server 127.127.1.0
fudge 127.127.1.0 stratum 8
然后重新启动服务。
去到子节点同步服务节点的时间:
之后要重启slurm服务:
之后slurm时间一样了即可成功。子节点就可以计算了。
注意:如果重启slurm,那么时间同步后虽然up节点成功,但是提交任务是还是不能计算,节点会显示为None。