文章校正タスクにEncoderDecoderモデルを用いています.
Decoderの出力次元は語彙数になると思うのですが, その場合大きすぎてメモリエラーを起こします.
そのため語彙のうち低頻度語をUNKに置き換えているのですが, それでは文章校正タスクに不適のように感じてしまいます.
できれば語彙数を削らずに学習したいのですが, 効果的な手法はありますでしょうか?