現在、CNNのモデル3層レイヤ程度の小規模なもの(しかし各層でもつフィルタ数は多い)に対し、データ数(500枚程度)で学習させた結果認識率が100%(エラー0%)という結果になりました。データ数や、それに対するネットワークの複雑性から過学習が引き起こされました。これについて調べ、検証データを使用し学習と検証の曲線を調べればわかるということでした。
質問は、
・検証データとはハイパーパラメータが正しいか確認するものであり、それはどのようにして行われるのか。
・検証と学習データの曲線の離れ具合をみたとき、これは本来一致するべき(どのデータでやっても汎化性能は変わらないとかんがえられるから。)であるという認識でよろしかったのでしょうか。

わからないことが多く、また非常に拙い文章で申し訳ないのですが、ご回答いただけと大変感謝します。