Slurm节点不能UP的解决方案

  • Slurm子节点一直不能启动的原因

1699186755378

  • 执行下ntpdate node01再试试

1699186850067

  • 我印象里 好像是那天重启之后等了半天 到了晚上再尝试就好了

  • 直接解决的方案:

1699161940835

1699161949965

1699162041495

1699162050810

  • 01执行下systemctl start ntpd

ntpdate -d node01

1699162521262

  • 其实还是时间同步的问题,修改ntp服务为本地的,在/etc/ntp.conf文件中增加:

  • 以下的定义是让NTP Server和其自身保持同步,如果在/ntp.conf中定义的server都不可用时,将使用local时间作为ntp服务提供给ntp客户端。

server 127.127.1.0
fudge 127.127.1.0 stratum 8
  • 然后重新启动服务。

  • 去到子节点同步服务节点的时间:

1699164875630

  • 之后要重启slurm服务:

1699165122384

  • 之后slurm时间一样了即可成功。子节点就可以计算了。

  • 注意:如果重启slurm,那么时间同步后虽然up节点成功,但是提交任务是还是不能计算,节点会显示为None。