mixi Engineers’ Blog ≫ mixi大規模障害について(情報元のブックマーク数)

mixiの障害についての調査している人とか、その人たちのために情報を出しているmixiとかこの連携素晴らしい

先日のmixi大規模障害についてのブログです。
はじめにお断りしておきますが、弊社CTOがtwitterで公開した以上の情報はまだ得られておりません。
twitterでは書ききれなかった細部を補足してみたいと思います
現状判明しているのは以下の点です

  • memcachedに大量の接続・切断を行うとmemcachedプロセスが突然終了することがある
  • memcachedには異常時に終了するフローもあるが、同時に出力されるはずのエラーログは出ていなかった
  • coreも出力されていなかった

テスト環境にて追試を行ったところ、なんどか再現させることができましたが、確実に発生する条件は未だ不明です。

mixi engineer blog

screenshot