Amazon EMRでS3に書き込みの際に503 Slow Downが発生する
Amazon EMRでPySparkを動かしています。
その際にS3にparquetで保存する処理中にAmazonS3Exceptionが発生致します。
コードは以下の通りです。
s3_path = 's3://hoge/huga/'
df.write.format('parquet').mode('overwrite').save(s3_path)
インスタンスはマスタノード、コアノード共に、r3.2xlargeになります。
元々r3.4xlargeやr3.8xlargeで動作させていたのですが、
同エラーが多発したため一旦r3.2xlargeに落として動作させているという事情があります。
(数十回は発生していなかったためこれでいけると思ったのですが再発し、根本解決のため質問させていただいた次第です。)
データフレームのデータ量はかなりの量があります。
調べたところ、徐々にリクエストを増やすか、プレフィックスを付けることで解決できそうなことはわかっております。
https://aws.amazon.com/jp/premiumsupport/knowledge-center/http-5xx-errors-s3/
が、PySparkでどのように設定をする事で上記が解決できるかわからなかったため、教えてください。
情報の不足等ありましたらコメント頂ければと思います。
よろしくお願いいたします。