mixiエンジニアインタビュー「時間をかけてでも、最高のものを。ミクシィに息づくものづくりの思想」森本氏 | 転職サイトgreen グリーン(情報元のブックマーク数)

たんぽぽグループの森本さんだぁーーーーーーーーーーーー!お久しぶりです(はぁとw

タンポポを載せるだけの仕事を社内からなくすためのグループ素晴らしいコンセプト!

まず、「たんぽぽグループ」というのは、ミクシィの中でどういう存在なのですか。
コンセプトは、「開発者のための開発」を行なうグループです。『mixi』がどうあるべきかという大局的な視点に立って、全システムに横断的に関わります。具体的には、『mixi』のコアアーキテクチャの検討、開発工程の改善、改善のためのツールの導入検討、パフォーマンスチューニング、アルゴリズム改善、海外向けサービスプロジェクトのサポート、など、『mixi』の開発・運用がスムーズに進むようさまざまな活動を行なっています。
「工場のベルトコンベアから流れてくる刺身の横によくある“たんぽぽ”を延々と置き続けるだけの仕事」---つまり「誰でもできる簡単な仕事」を社内からなくすというミッションを持つグループとして生まれました。システム開発における知識や経験が豊富で、特に高い技術力を持つ人が集まっています。

http://www.green-japan.com/contents/mixi/interview_morimoto.html

100台中の数台で起きた場合、サーバの問題なのかミドルウエアの問題なのか、ソフトウエアなのか、そこを切り分けるのが難しい。確かになぁ。

それまで常に安定稼動していたmemcachedのバグが原因であるとは、この時点では誰も予想していませんでした。当初は、ちょうど同じタイミングで行なわれた新機能のリリースの影響ではないかとか、ネットワークや電源に問題があるのではないかと考えたのです。
なぜなら、100台ほどのサーバで、KeyとValueをペアにして保存するという使い方をしていたので、もしmemcachedが原因なら全部が落ちなければおかしい状況だったのです。そもそも、たとえ10台が同時に落ちたとしても運用が続けられる構造を採用していたため、落ちてしまったことに驚きました。

http://www.green-japan.com/contents/mixi/interview_morimoto.html

ログ取得が多すぎて大変・・・これはあるなぁ・・・数兆分の1で発生するバグでもMixiでは回数が増えてしまうって聞いた。本当にすごい環境。

復旧に時間がかかった原因のひとつが、落ちた時のログがなかったことでした。『mixi』への1リクエストにつきmemcachedへのアクセスが数十回発生するので、memcachedは一時間に数十メガという膨大なログをはき出します、これをすべて保存しておくことは不可能に近かったのです。そこで、ログを取得する仕組みを再構築し、原因究明を進めることにしました。memcachedをクリアせずに同時にログを取得するのは非常に難易度の高いことで、最終的に原因を突き止めたのは翌日でした。その時わかった事は、memcachedは接続数が限界に達した状態で、頻繁な切断・接続を行うと稀に落ちることがあるということで、未だ知られていなかったmemcachedのバグを発見した瞬間でした。『mixi』ではmemcachedへの接続数が非常に多いため、切断・接続も大量に行われます。そのため「ごく稀」な状況が「ごく稀」ではなくなり多数のmemcachedでバグが発生し落ちてしまっていたという現象が起きていたのです。

http://www.green-japan.com/contents/mixi/interview_morimoto.html

この前お会いしてそうおもいました。すごい人です。

たんぽぽグループのエンジニアは、社内でも一目置かれる存在のようだ。特に森本氏は、「尊敬するエンジニア」として真っ先に名前が挙がるような存在感がある。そんな森本氏がソースやそのレビューを通して伝えるものを、後進のエンジニア達が吸収し成長している。そのような技術のリレーは、ミクシィという会社やサービスの「息の長さ」の源ではないか。ミクシィの強さの秘密は、まさにエンジニア達の成長にあると感じた。

http://www.green-japan.com/contents/mixi/interview_morimoto.html

screenshot