大規模なデータ収集といった話になるときに、よくストリーミング処理が必要になり、
Amazon KinesisやApatch Streamなどの話題が出ます。

複数台のサーバー -> Amazon Kinesis -> Amazon Redshift

といった具合に。

複数台のサーバー -> Amazon Redshift

といったように、複数台のサーバーから直接DBに保存するのはトランザクションの問題?や処理が追いつかなかったりするため、ストリーミング処理をするのだと私の中では認識しております。

ただ、結局、間にストリーミングサーバーを入れたところで、左から右へデータを流しているだけで、結局、処理が追いつかなかったりするのではないかと思っております。

実際はそんなことはなく、ストリーミングサーバーはそこら辺を上手くやっているのかと思われますが、そのあたりの知見をつけたく、調べているのですが、なかなか良い資料が見当たりませんでした。

※一つ、思い浮かぶのは、ある程度、ストリーミングサーバー側でデータをためて、一定以上貯まるとデータをDBへ入れるといったこととかですかね。

皆様のご経験などを踏まえ、ご教授頂けますと幸いです。

宜しくお願いします。