帰ってきた大規模Webサービスの裏側:第1回 バーストトラフィックの発見と対処|gihyo.jp … 技術評論社(情報元のブックマーク数)

Webサービスでのバーストトラフィックの対応について、Mixiの人が記事を書いています。

初めまして,(株)ミクシィの中野和貴です。私はシステム本部運用部インフラグループネットワークチームという部署で働いており,ほかのメンバーと共にmixiのネットワーク部分全般に関して設計・保守・運用を行っています。ここでは『WEB+DB Press』Vol.50〜55にて連載されていた「大規模Webサービスの裏側」で紹介しきれなかったエピソードや,その後のインフラ事情を紹介していきます。
日々大量のトラフィックが流れるmixiのネットワークですが,大きくなってくるとやはりいろいろな問題も出てきます。今回はそれらの問題の中で普段運用しているとなかなか気付きにくいバーストトラフィックに起因する問題事例を紹介します。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

スイッチのポートが頭打ち・・・

ではまず,mixi全体のネットワーク構成から話を進めていきましょう。mixiのネットワークは図1に示しているように,ごく一般的な構成で成り立っています。コアスイッチやボーダルータのような主要スイッチの間は10Gbps,コアからエッジへは1Gbpsでの接続です。
ある日,部内でスループットが頭打ちになってしまっているポートがあるという話が出てきました。対象ポートのトラフィックグラフを見てみると,確かにピークタイムでTCPの制御が働き,トラフィックが頭打ちしてしまっているようです。そこでさらに調べてみると,けっこうな数のポートが同様の傾向を示していることが判明し,詳しく調査を始めることとなりました。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

600Mbpsで頭打ち、本来なら750Mbpsは超えるはずなのに、、、って、、、、そんなレベルの頭打ちまでトラブルシュートか!

通常時では起こらないトラフィックの頭打ちがなぜピークタイムだけ起こるのか。単純に考えればピークタイム時のトラフィックがスイッチの性能限界を超えてしまっているからということで片付いてしまうでしょう。しかしながら,この現象が起こっているときのエッジスイッチの総スループット量はSNMP(Simple Network Management Protocol)から取得したグラフを見ると600Mbps強でした。仮にすべてのトラフィックがショートパケット(64バイト)だと仮定しても,アップリンクが1Gbpsあれば,約760Mbpsがスイッチの上限値となります(※)。ですので今回の事象の答えとしては適切ではありません。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

数年前のネットワークのグランドデザインが古いと言い切っちゃう時代。。。。そして、エッジまで10Gbpsで接続

そもそもサービスネットワークのグランドデザイン自体が数年前のもののため,今後のサービス規模拡大やサーバの性能向上によるトラフィックの増大も視野に入れると,memcached部分のネットワークにだけ対応しても中長期的に見ればほかのシステム部分でも起こり得る問題になるのではと考えたからです。
これらの方針に加えて,そもそも最近のトラフィックの増大から1Gbpsでのネットワークに限界を感じていたこともあり,コアからエッジまでの間を10Gbpsでつなぐ新設計へと移行することにしたのです。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

ちょっwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

では,ここからが本題です。じわじわとスイッチを虐めていくことにします。先ほどは検証機からのアップリンクを10Gbps接続で検証を行いましたが,ここではそこも1Gbpsに変更してバーストトラフィックを流していきます。その他の条件は先ほどと同様です。こうした構成にすることで,よりスイッチ自身の処理性能を見ることができます。この検証の結果は表2のようになりました。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

うははっはwwwここまで見るネットワーク管理者がいるのかなぁwww

みなさんもサーバの監視グラフを見ていて「あれっ?」と思うことがあるときはぜひネットワークのほうも気にしてみてください。今回の事例のように思わぬ改善点が見つかるかもしれません。

第1回 バーストトラフィックの発見と対処:帰ってきた大規模Webサービスの裏側|gihyo.jp … 技術評論社

screenshot