OpenPBS でPBS_Server がrunning にならない
今日はジョブスケジューラの話を。
顧客のクラスターサーバーでPBS Pro を使うケースがたまにあるのですが、こちらで動作確認する環境が欲しくても商用のジョブスケジューラなので買えない。ということで互換性があるOpenPBS の環境を構築することがあったのですが、情報が少なくて結構ツボにはまるので備忘録です。
1台でヘッドノードと計算ノードを兼ねるので、SERVER、SCHED、COMM、MOM を全て1 にします。
sudo vi /etc/pbs.conf
編集後のファイル
PBS_SERVER=HOSTNAME
PBS_START_SERVER=1
PBS_START_SCHED=1
PBS_START_COMM=1
PBS_START_MOM=1
PBS_EXEC=/opt/pbs
PBS_HOME=/var/spool/pbs
PBS_CORE_LIMIT=unlimited
PBS_SCP=/usr/bin/scp
Code language: JavaScript (javascript)
これで
sudo /etc/init.d/pbs start
でPBS を開始させるも、PBS_SERVER だけが起動しません。
sudo /etc/init.d/pbs status
結果
pbs_server is not running
pbs_mom is pid 68210
pbs_sched is pid 68222
pbs_comm is 68200
ログが出ずに原因が分からなかった
/var/spool/pbs/server_logs などのログを確認したのですが、原因が分からず。。。
参考になったのはこちらのリンク。
If PostgreSQL data (/var/spool/pbs/datastore) created, and the server db has not row (cannot be loaded at startup (rc=1)) , then pbs_server.bin seems to exit.
(No log messages are output.)
ということで、datastore ディレクトリを削除してみると、
sudo rm -r /var/spool/pbs/datastore/
Code language: JavaScript (javascript)
動くようになりました。警告は出ていますが。
% sudo /etc/init.d/pbs start
Starting PBS
PBS Home directory /var/spool/pbs needs datastore.
Running /opt/pbs/libexec/pbs_habitat to initialize it.
***
*** Setting default queue and resource limits.
***
cp: cannot stat '/usr/pgsql-15.10/lib/*': No such file or directory
cp: cannot stat '/usr/pgsql-15.10/lib/*': No such file or directory
cp: cannot stat '/usr/pgsql-15.10/share/timezonesets/*': No such file or directory
cp: cannot stat '/usr/pgsql-15.10/share/timezonesets/*': No such file or directory
cp: cannot stat '/usr/lib/postgresql/15/bin/pg_resetxlog': No such file or directory
*** End of /opt/pbs/libexec/pbs_habitat
Datastore directory /var/spool/pbs/datastore initialized.
/opt/pbs/sbin/pbs_comm ready (pid=805735), Proxy Name:XXX.domain.com:17001, Threads:4
PBS comm
PBS mom
PBS sched
Connecting to PBS dataservice...connected to PBS dataservice@XXX.domain.com
PBS server
Code language: JavaScript (javascript)
ステータスを確認しても問題なしです。
sudo /etc/init.d/pbs status
pbs_server is pid 805855
pbs_mom is pid 805745
pbs_sched is pid 805758
pbs_comm is 805735
No responses yet