2019年01月10日

【薙刀式】N-gram以外の統計を探している

僕がずばり欲しいのは、
「単語ごとの統計」。


日本語にどれだけの単語があるか分からないが、
日常に使われるのは何万語ぐらいの単位だろう。

活用形は全て別単語として集計したい。
例えば動詞は、終止形より連体形が多いような予感。
(文体にもよるのかなあ)

接頭語接尾語や複合語は、
それ単体の統計も欲しいし、
セットとしてのものも欲しいなあ。


N-gram統計は、
機械的には集めやすいデータなのかも知れないが、
言語が機械的でないことは明らかだ。
言語は意味の塊の構造を持ち、N-gramの構造を持つわけではない。

たとえば連文節変換などのデータを蓄積して、
単語単位にリアルタイムに分解したものを蓄積、
たとえば人が一ヶ月打つ文章を統計し、
たとえば1000人程度のサンプルを、
集められないだろうかね。

固有名詞を除くと、
概ねの傾向が出そうな気もするけれど。
(手作業で除外?)

でも口癖とかあるだろうし、
その影響をどれだけ集めれば打ち消せるのか、
予想がつかない部分だけれど。


おそらく、
会話型人工知能の基礎研究あたりに転がってそうなデータだけど、
単語単位のがあったらなあと思いました。


英語なら楽だろうなあ。
空白区切りがすでにコードになっているしなあ。
トップはなんだろう。「the」かな。

日本語がローマ字表記になろうとしていたとき、
単語単位、文節単位で空白を入れる、
「分かち書き」を導入しようとしていたときがある。
しかしそれは日本語文法を使いこなすことが前提なので、
自然言語とはとても言い難い。
エスペラント語のような不自然さがあって、
おそらくそんなの誰も使わないだろう、
と思ったことがある。

今欲しいのは、その分かち書きのデータだなあ…
posted by おおおかとしひこ at 09:38| Comment(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。