DBに保存する前にAmazon KinesisやApatch Stream などのストリーミングサーバー?に保存する理由がわかりません。
大規模なデータ収集といった話になるときに、よくストリーミング処理が必要になり、
Amazon KinesisやApatch Streamなどの話題が出ます。
複数台のサーバー -> Amazon Kinesis -> Amazon Redshift
といった具合に。
複数台のサーバー -> Amazon Redshift
といったように、複数台のサーバーから直接DBに保存するのはトランザクションの問題?や処理が追いつかなかったりするため、ストリーミング処理をするのだと私の中では認識しております。
ただ、結局、間にストリーミングサーバーを入れたところで、左から右へデータを流しているだけで、結局、処理が追いつかなかったりするのではないかと思っております。
実際はそんなことはなく、ストリーミングサーバーはそこら辺を上手くやっているのかと思われますが、そのあたりの知見をつけたく、調べているのですが、なかなか良い資料が見当たりませんでした。
※一つ、思い浮かぶのは、ある程度、ストリーミングサーバー側でデータをためて、一定以上貯まるとデータをDBへ入れるといったこととかですかね。
皆様のご経験などを踏まえ、ご教授頂けますと幸いです。
宜しくお願いします。