音声認識アプリを作りたい

例えば、下記のようなアプリを作りたいと思っています。

というアプリを作りたいと思っています。できれば、「あ」「い」「う」「え」「お」と順番に出すのではなくランダム要素も含めたいのです。

Windows環境でまずはやってみたいと思います。その次に、Androidでも動作させたいと思います。

どのような言語やライブラリを用いれば上記のようなアプリを作成することが可能でしょうか？可能であれば、ナレッジとかAPIの説明がのっているサイトも教えていただければ助かります。

ご教示のほうよろしくお願いいたします。