僕がずばり欲しいのは、
「単語ごとの統計」。
日本語にどれだけの単語があるか分からないが、
日常に使われるのは何万語ぐらいの単位だろう。
活用形は全て別単語として集計したい。
例えば動詞は、終止形より連体形が多いような予感。
(文体にもよるのかなあ)
接頭語接尾語や複合語は、
それ単体の統計も欲しいし、
セットとしてのものも欲しいなあ。
N-gram統計は、
機械的には集めやすいデータなのかも知れないが、
言語が機械的でないことは明らかだ。
言語は意味の塊の構造を持ち、N-gramの構造を持つわけではない。
たとえば連文節変換などのデータを蓄積して、
単語単位にリアルタイムに分解したものを蓄積、
たとえば人が一ヶ月打つ文章を統計し、
たとえば1000人程度のサンプルを、
集められないだろうかね。
固有名詞を除くと、
概ねの傾向が出そうな気もするけれど。
(手作業で除外?)
でも口癖とかあるだろうし、
その影響をどれだけ集めれば打ち消せるのか、
予想がつかない部分だけれど。
おそらく、
会話型人工知能の基礎研究あたりに転がってそうなデータだけど、
単語単位のがあったらなあと思いました。
英語なら楽だろうなあ。
空白区切りがすでにコードになっているしなあ。
トップはなんだろう。「the」かな。
日本語がローマ字表記になろうとしていたとき、
単語単位、文節単位で空白を入れる、
「分かち書き」を導入しようとしていたときがある。
しかしそれは日本語文法を使いこなすことが前提なので、
自然言語とはとても言い難い。
エスペラント語のような不自然さがあって、
おそらくそんなの誰も使わないだろう、
と思ったことがある。
今欲しいのは、その分かち書きのデータだなあ…
2019年01月10日
この記事へのコメント
コメントを書く