インストールガイド CentOS 7.5 minimal with MATE & Nvidia CUDA 9.2

インストール時におこった問題については下記記事で解説

sikeda107.hatenablog.jp

0. 理由　※飛ばしていいです

CentOSのkernelをアップデートしたらnvida-smiが後述のようになったので、ドライバを入れ直そうとしたらぐちゃぐちゃになっちゃったので、もうやりなおすことにした。

$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

下記サイトを参考にしてシングルユーザモードでログインして、いろいろやったけど結局CentOSが立ち上がらなくなったのでもう諦めた。
参考：CentOS 7でrootパスワードをリセットする方法
ちなみに最終的には

[赤いなにか]a start job is running for wait for plymouth boot screen to quit

とかでて、左に赤いのがくるくるまわってた。

1. 準備

公式サイトからCentOSのISOイメージファイルをUSBメモリに焼いておく
調べる用のPC

焼き方は下記を参考にして、RufusってソフトをつかってWindows10のPCで焼きました。Macの人は別途調べてね。

hamukichi.hatenablog.jp

2. CentOS 7.5 インストール

インストーラ起動

CentOSのはいったUSBメモリを刺し、BootをUSBにして起動したところでいきなりつまづいた。

failed to map image memory

が出て、インストールができない。参考サイトをもとに、
1. 「Install CentOS 7」を選択した状態で、eまたはtabキーを押してbootオプション編集画面を表示
2. bootオプションの一番後ろのquietを削除してnoacpi nomodesetを追記してCtrl+XまたはEnterキーを押す
3. 立ち上がる
参考：https://syobon.jp/2017/10/02/ryzen-install-battle-case-of-centos-7/

インストール設定

たちあがったあとは案内に従ってインストールしていく。
* 言語:日本語
* キーボードレイアウト:英語US ※お使いのキーボード配列参照で
* KDUMPは無効　※お好みで
* ソフトウェア選択はMinimalのみ ※必要なものは後で入れる+GNOME3が嫌い
* インストール先　その他のストレージオプション->パーティション構成->パーティションを自分で構成する->完了
CentOS Linux Linux 7.5 1804 for x86_64を選択してマイナスをして空っぽにしたあと、自動的に作成をする。(新規でインストールしたいため)homeを選択してマイナス、とroot(/)をを選択してマイナスする。プラスをクリックしてマウントポイントを(/)にし、ストレージの残り全部をを割り当てる。
最終的に、/boot 1024Mib /boot/efi 953MiB / 214.14GiB swap 7681MiB
使用可能 1592.5 KiB 全ての領域 223.57GiB
完了をクリック
* 右下のインストールを開始
* インストール中にROOTパスワード、ユーザを作成する。ユーザを作成時に管理者(つまり、wheelグループにいれること)にチェック　※sudo を使うため

インストールがおわったら再起動される。

3. CentOSの設定

ネットワークの設定

再起動後、ログインしたらまずはネットワークの設定をする。
下記サイトを参考に、「NetworkManager TUI(nmtui)」をつかって設定をする。
1. $nmtuiで起動
2. Edit a connection を選択
3. Addを選択してEnter、Ethernetを選択
4. IPv4 CONFIGURATION のAutomaticをEnterして、Manualに変更する。
5. Showを押すと設定のリストが現れる
6. 固定IPを振り当てる。案内に従ってIPアドレス(xxx.xxx.xxx.xxx/yy)、デフォルトルート、DNS、を設定する　※xxxはアドレスyyはサブネットマスク　ネットマスク早見表
7. 「Automatically connect」にチェックを入れ自動接続するようにする
8. $systemctl restart networkでネットワークの反映
9. $ip addrで反映されているか確認
10. $ping アドレスでパケット送って返ってくるかみるのもあり。
*参考:NetworkManager 使用方法（nmtui編）

アップデート

ネットワークの設定がおわったら、yumでアップデートをかける。その後必要なものをインストールしていく。
1. コマンドを実行$sudo yum -y update (-yはall yesの意味)
2. 一旦$rebootで再起動をかける　
3. kernelが最新かどうか確認する。OSに対する最新カーネルはRHEL公式で確認できる

$ cat /etc/centos-release (OSの確認)   
$ uname -a (カーネルの確認)

最新カーネルがあたっていればOK

4. CUDA9.2 の準備

基本的には公式「 NVIDIA CUDA INSTALLATION GUIDE FOR LINUX DU-05347-001_v9.2 | August 2018 WEB版」 (PDF版)に沿ってインストールしていく。

デバイス状況の確認

Minimalインストールをしたので、lspciコマンドが入っていない。下記サイトを参考にインストールし、実行する。このPCにはGTX1070Tiが搭載されている。
公式該当ページ

$ yum install pciutils (lspciのインストール)  
$ lspci | grep VGA (グラフィックスカードの確認)  
00:02.0 VGA compatible controller: Intel Corporation Device 3e91  
01:00.0 VGA compatible controller: NVIDIA Corporation GP104 [GeForce GTX 1070 Ti] (rev a1)

参考：CentOS 7 : lspciのインストール

インストールに必要なものをインストール

C/C++ コンパイラ GCCのインストール公式該当ページ

$ sudo yum install gcc 
$ sudo yum install gcc-c++
$ gcc --version (確認)
gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-28)
Copyright (C) 2015 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
$ g++ --version (確認)
g++ (GCC) 4.8.5 20150623 (Red Hat 4.8.5-28)
Copyright (C) 2015 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

CUDAドライバは、ドライバのインストール時にカーネルの実行バージョンのカーネルヘッダと開発パッケージをインストールする必要がある。公式該当ページ

$ sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)

CUDAはdkmsを要求する。公式該当ページ

Dynamic Kernel Module Support (DKMS) はカーネルのソースツリーの外にソースが存在する Linux カーネルモジュールの生成を可能にするプログラム/フレームワークです。新しいカーネルがインストールされたときに DKMS モジュールは自動的にリビルドされます。Dynamic Kernel Module Supportより

$ sudo yum install epel-release 
$ sudo yum install dkms
$ dkms --version (確認)
dkms:2.6

dkms problem while installing CUDA 8 on RHEL 7.3 ppc64le
4. CUDAToolkitをダウンロードするため、GUI環境のMATEをインストールする。startxで立ち上がればOK

$ sudo yum groupinstall "MATE Desktop" -y
$ sudo yum -y groups install "Server with GUI"
$ echo "exec /usr/bin/mate-session" >> ~/.xinitrc 
$ startx （GUIを立ち上げる）

参考：MATEデスクトップ環境インストール

ドライバの準備

CentOSにはデフォルトでnouveauというグラフィックドライバがある。これがNvidiaドライバと衝突するため、無効化する。公式該当ページ
nouveau ドライバの確認をする。

$ lsmod | grep nouveau

viで設定ファイルを作成・編集する。

$ sudo vi /etc/modprobe.d/blacklist-nouveau.conf

ファイルに下記を記入する。iキーで編集モード、入力して追加、Escで戻る、:wqでセーブして終了。

blacklist nouveau
options nouveau modeset=0

現在のkernel initramfsのバックアップをとり、nouveauを無効化したkernel initramfsを再生成する。

$ mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
$ sudo dracut --force

再起動する。

$ reboot

コマンドで何も表示されなければnouveauがロードされていないのでOK

$ lsmod | grep nouveau

補足：代わりのドライバとしてi915ってのが読み込まれてる。ちなみにビデオ出力はグラフィックスボードからではなく、マザーボードからにしてある。グラボはGPGPUとしてのみ使うため。

$ lsmod | grep i915
i915                 1639910  0 
iosf_mbi               14990  2 i915,intel_rapl
i2c_algo_bit           13413  1 i915
drm_kms_helper        177166  2 i915,nvidia_drm
drm                   397988  4 i915,drm_kms_helper,nvidia_drm
video                  24538  1 i915
i2c_core               63151  7 drm,i915,i2c_i801,i2c_hid,drm_kms_helper,i2c_algo_bit,nvidia

5. CUDA9.2のインストール

公式該当ページ

ダウンロード

コマンドでGUIを起動し、firefoxでダウンロードサイトを開く。

$ startx

あるいは、ランレベルの変更でGUIモードに切り替える。その後再起動する。ログインしたあとfirefoxでダウンロードサイトを開く。

$ systemctl set-default graphical.target
$ reboot

CUDAToolkit公式のDpwnloadNowをクリックして最新のCUDAをダウンロードする。今回はrunファイルを選択する。RPMだとのちのち面倒くさい（後述）。

Operating System : Linux
Architecture : x86_64
Distribution : CentOS
Version : 7
Installer Type : runfile(local)　※お好みで

ベースインストーラ：cuda_9.2.148_396.37_linux.runと
パッチファイル：cuda_9.2.148.1_linux.runを
ダウンロードする。