Posts categorized under: server
torque 6.1でarray jobが300しか実行されない
torqueのバージョンを上げるとqstat -q
でみたときに下記のように300しかでなくなった。
Queue Memory CPU Time Walltime Node Run Que Lm State
---------------- ------ -------- -------- ---- --- --- -- -----
batch -- -- -- -- 0 300 -- E R
----- -----
0 300
http://docs.adaptivecomputing.com/torque/6-1-0/releaseNotes/Content/topics/releaseNotes/newFeatures.htm
Job Arrays Now Only Partially Instantiated By Default
Job arrays are now only partially instantiated by default …
maui alert
ALERT: cannnot create reservation in MJobReserv
というメッセージがmaui.logに出ているときは
RESDEPTH
の値を大きくする。
http://docs.adaptivecomputing.com/maui/a.fparameters.php
インターネットにつながらないLinuxクラスターを運用する
はしがき
ここ最近は小規模なLinuxクラスターの運用管理もやっています。
事情よりクラスター自体がインターネットに接続できないため、通常に比べ管理が面倒だったり、外部サービスを利用できないため不便なことが多々あります。 そんな環境で色々やってるので書いておきます。
環境はCentOS7です。
構成管理
ansibleを使用しています。クライアント側にインストールの必要が無いため、管理用端末のみインターネットに接続してインストールすればいいので楽です。
ansible用ユーザーを作って公開鍵認証にしていますが、初回のユーザー作成と鍵配布もansibleで行うため、
そのときだけはremote_user: root
とbecome_method: su
を使ってrootパスワードを使用しています。
---
- hosts: all
become: yes
become_method: su
remote_user: root
tasks:
- name: provisioner
user:
name: provisioner
append: yes
- name: provisioner ssh key
authorized_key:
user: provisioner
key: "{{ lookup('file', '../../ssh/id_rsa.pub') }}"
- name …
Page 1 / 1