オーバーフロー

現在、CNNのモデル３層レイヤ程度の小規模なもの（しかし各層でもつフィルタ数は多い）に対し、データ数（５００枚程度）で学習させた結果認識率が１００％（エラー０％）という結果になりました。データ数や、それに対するネットワークの複雑性から過学習が引き起こされました。これについて調べ、検証データを使用し学習と検証の曲線を調べればわかるということでした。
質問は、
・検証データとはハイパーパラメータが正しいか確認するものであり、それはどのようにして行われるのか。
・検証と学習データの曲線の離れ具合をみたとき、これは本来一致するべき（どのデータでやっても汎化性能は変わらないとかんがえられるから。）であるという認識でよろしかったのでしょうか。

わからないことが多く、また非常に拙い文章で申し訳ないのですが、ご回答いただけと大変感謝します。