Blumix/WatsonのNatural Language Clasifier(NLC)を使って特定分野の質問の分類を行おうとしています。
現在は10個程度のクラスに分けようとしていて、各クラス毎に5〜10個ぐらいのトレーニングデータを用意しています。トレーニングデータはCSVでUTF-8フォーマットにして、トータルだと150個ほどデータがあります。
内容は、質問の内容が微妙に違っていてもクラス分けができるように、文章を変えたものを作っています。例えば、Aということの質問があるときに、以下のようにトレーニングデータを作っています。

"Aは何でしょうか?","ClassA"
"Aはどのように選べ良いですか?","ClassA"
"Aはどう使えば良いでしょうか?","ClassA"
:

上記のようなデータをA,B,C...のようにそれぞれ5個程度のデータを用意しています。
トレーニングが完了後にNLCに分類分けのAPIを呼び出したのですが、Aに関するTextを
投げても、全く無関係なBなどがTop信頼度で上がってきます。

これは根本的にデータが不足しているのか、投げているトレーニングデータ自体が悪いのかと思っていますが、解決する方法が分からず困っています。NLCがどういう基準で分類しているのかを勘違いしているのかもと思っています(Bluemixにある天気のdemoは参考に見ていますが)

こういうデータを用意するすると分類できる、などのアドバイスをいただけないでしょうか?