bag of wordsでのデータの表現について
「日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界」徳永拓之 著では、bag of wordsについて、こういう説明が述べられています。
「bag of words」では、文章を単語に区切って含まれる単語の数を数え、それぞれの単語に対応する次元に単語の出現回数を設定するものです。例えば、「this is a pen」という文をベクトルに変換することを考えます。「this」「is」「a」「pen」に対応するベクトルの次元がそれぞれ「3」「4」「9」「2」であったとすると、2、3、4、9の次元だけ1であり、他の次元はすべて0であるようなベクトルになります。
1、「単語に対応する次元」はどういうものですか。
2、「this」「is」「a」「pen」に対応するベクトルとはどういうものですか、次元である「3」「4」「9」「2」はそれらの単語の出現回数ですか。Wikipedia: Bag-of-words modelで紹介された方法に沿って、{"this": 3, "is": 4, "a": 9, "pen": 2}
で表現できますか。
3、「2、3、4、9の次元だけ1であり、他の次元はすべて0である」どういう意味でしょうか。