Single Shot Multi-box Detector (SSD) をトレーニングする際に
入力データに対してエンコードされる「variance」の役割を知りたいです。

以下の公開レポジトリを参考にしています:
https://github.com/rykov8/ssd_keras
https://github.com/pierluigiferrari/ssd_keras

SSDをトレーニングする際、物体の位置のラベルは、Default box(中心x, 中心y, 幅, 高さ)に対する差異(Δ中心x, Δ中心y, Δ幅, Δ高さ)としてエンコードしてモデルに入力しますが、その際にΔ中心xとΔ中心yに対して0.1、Δ幅とΔ高さに対して0.2という値を「variance」と称してエンコードしていることに気づきました。
しかし上記レポジトリはじめオリジナルのcaffeでの実装でも「variance」としか説明されておらず、意味がわかりませんでした。
なぜこのようなことをするのでしょうか?