Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

(情報元のブックマーク数

機械学習基盤をオンプレで自作する。確かに選べば安いしデータ転送も早いよなぁ。

内容は、Retty でおこなった今年のユニークな技術的取り組み「Retty 機械学習基盤を秋葉原に買い物に行って自作した話」です。

Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

NVIDIA のコンシューマ向け GPU を 2 つ搭載した Intel アーキテクチャの自作 ATX タワーマシンを 5 台並べています。

その各マシンに ssh でログインできる docker コンテナが稼働していて、ログインして GPU を利用します。5台のマシンの各 docker コンテナのホームディレクトリは NFS で共有されていて、どのマシンにログインしても同じデータにアクセスが出来ます。
GPU は合計 10 個、機械学習エンジニアには「どこにログインしても同じファイルにアクセスできるプリエンプティブル・コンテナ1」に見えます。

Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

screenshot