Posts categorized under: server

torquestat

screenshot

github

年末年始にgolangやり直しで作ってたtorqueの監視ツールです。

こういうのが1バイナリでサクッとできるのはいいですね。

torque 6.1でarray jobが300しか実行されない

torqueのバージョンを上げるとqstat -qでみたときに下記のように300しかでなくなった。

Queue            Memory CPU Time Walltime Node  Run Que Lm  State
---------------- ------ -------- -------- ----  --- --- --  -----
batch              --      --       --      --    0  300 --   E R
                                               ----- -----
                                                   0   300

http://docs.adaptivecomputing.com/torque/6-1-0/releaseNotes/Content/topics/releaseNotes/newFeatures.htm

Job Arrays Now Only Partially Instantiated By Default

Job arrays are now only partially instantiated by default …

maui alert

ALERT: cannnot create reservation in MJobReserv

というメッセージがmaui.logに出ているときは RESDEPTHの値を大きくする。

http://docs.adaptivecomputing.com/maui/a.fparameters.php

インターネットにつながらないLinuxクラスターを運用する

はしがき

ここ最近は小規模なLinuxクラスターの運用管理もやっています。

事情よりクラスター自体がインターネットに接続できないため、通常に比べ管理が面倒だったり、外部サービスを利用できないため不便なことが多々あります。 そんな環境で色々やってるので書いておきます。

環境はCentOS7です。

構成管理

ansibleを使用しています。クライアント側にインストールの必要が無いため、管理用端末のみインターネットに接続してインストールすればいいので楽です。

ansible用ユーザーを作って公開鍵認証にしていますが、初回のユーザー作成と鍵配布もansibleで行うため、 そのときだけはremote_user: rootbecome_method: suを使ってrootパスワードを使用しています。

---
- hosts: all
  become: yes
  become_method: su
  remote_user: root
  tasks:
    - name: provisioner
      user:
        name: provisioner
        append: yes
    - name: provisioner ssh key
      authorized_key:
        user: provisioner
        key: "{{ lookup('file', '../../ssh/id_rsa.pub') }}"
    - name …