例えば、下記のようなアプリを作りたいと思っています。

  1. アプリを起動
  2. 「あ」という画像をPCモニターに出力する。
  3. モニターに出力された文字をみた人が、「あ」とむかって、マイクに言う。
  4. 書いてる文字と、人の声が一致しているかの正答をアプリが判断。
  5. 正解していれば画像に赤丸をつける。不正なら×。
  6. 正解不正解問わず、次の文字「い」を画面に表示。
  7. 3から5の繰り返し。

というアプリを作りたいと思っています。できれば、「あ」「い」「う」「え」「お」と順番に出すのではなくランダム要素も含めたいのです。

Windows環境でまずはやってみたいと思います。その次に、Androidでも動作させたいと思います。

どのような言語やライブラリを用いれば上記のようなアプリを作成することが可能でしょうか?可能であれば、ナレッジとかAPIの説明がのっているサイトも教えていただければ助かります。

ご教示のほうよろしくお願いいたします。