Apache SparkなどのHadoop技術を使う意味がでてくるデータ量はどれくらいでしょうか?
ログ分析を行うのにApache Sparkを検討しています。しかし、本当にSparkを使うことが他の手段よりも効果的なのかの判断がなかなか難しく悩んでいます。
このサイトでは、1ノードに収まるディスクで対応できるならHadoopなどを使う必要はないという主張がされています。
https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
現在ではSparkなどの高速なHadoop技術も成長しているので、この記事が書かれたころとは状況は変わっていると思います。
それでもこのサイトが主張するように1つのノードに収まるデータ量であれば集計はMySQLやC/C++などを選択すべきでしょうか。
明確な答えでなくてもかまわないので、自分なりの指標などを持っている方がいらっしゃいましたらお教えいただきたく思います。
お願い致します。
追記
質問のデータ量という話からはちょっとズレますが、MySQLで1億レコードのベンチを取ってみました。
http://qiita.com/devneko/items/56c391e75537db07a515
1億レコードともなると簡単な処理でも1クエリ1分以上はかかりそうです。
マシンの性能アップやチューニングで改善すると思いますが、10億レコードくらいになってくると
さすがにMySQLなどで集計するのは辛くなるのではないでしょうか。
ちなみに1億レコードの元データはSQLのプレーンテキストで約10GBほどなので、データ量の話しに直すと10億レコードは100GBほどということになります。
CPUの使用率があがってないので、C/C++などでマルチスレッドで処理した場合はもっと性能が出そうです。