引き続き、興味深い資料を読み込んでみる。
Akira. Kさんによる、Wikipediaの日本語ページから抽出された、
漢字n-gramデータ。
https://github.com/kirameister/aki_code/blob/development/data/n_gram_to_weight.json#L1
「標準的な日本語文章」
というものが統計の理想ではあるものの、
サンプルの標準化がとても難しいのはとてもよくわかる。
どれだけたくさんの文章を集めればいいのかわからないし、
まとまったまともな文章はなかなかないからね。
小説は小説なりに偏りそうだし、
新聞は新聞で偏りそうだし、
ネットはネットで偏りそうだし。
その中でもWiki日本版は130万項目(現在)あるらしいので、
サンプルの量としては十分だろう。
多岐に渡るような気もするし。
しかしWiki文体とでもいうような、
自然な日本語とは異なる解説文体であることは、
なんとなくはわかると思う。
あと、満遍なく扱うかというとそうでもなく、
話題に偏りがあると思う。
(人気のあるものが統計的に多いから、
それが自然であるという見方もなくもないが)
得られた生データから、
こうした偏りを慎重に除いていくべきだろう。
その偏りを、適宜取り上げてみる。
・解説文体による偏り
トップ1が日本かー、へー、と思いつつ、
たとえば、
「○○○は日本の小説家。」
みたいな第一文で「日本」がやたら出てくる可能性があるな、
と気づく。
日本の出現回数は590万回だが、
ざっくり130万項目分減らしてもいいかも知れない。
「概要」が上位に入ってるのもWikiの構造によるものだろう。
たとえば論文でも「概要」が一番多そう。「大学」「研究」も多そう。
あと「一方」がかなり多いと思った。
この接続詞、関係ないものをつなげる接着剤として便利なので、
一連のつながってない文章をつなげて、
一連に見せるように使えるため、
かなり便利な道具なんだよね。
逆にいうと、「文章下手がうっかり多用する接続詞」の代表でもある。
本当に対比的なブロックがあって、その転換点に使われるよりも、
バラバラなものを並べるときになんとなく使われる。
解説という性格上、
バラバラな知識の羅列のことの方が多いが、
なんとなくつなげたくなって、
一方、とするパターンが多そうだなと感じた。
現在、当時、同年、
などの年代特定も、
解説文体特有の多さに感じるね。
・話題による偏り
映画ないしアニメ、テレビに関すること、
スポーツに関することが、
やたら多いと感じた。
トップ100から抽出しても、
放送、作品、映画、番組、出演、活動、登場、
影響、人物、音楽、監督、委員会、本作
試合、記録、出場、代表、開催、選手、
設立、優勝、選手権、所属、活躍
なんて感じ。
もちろんそれ以外にも使われる言葉ではあるが。
西洋のWikiは政治や宗教が充実してて、
日本のWikiはアニメが充実してるなんて話を聞いたことがあるが、
それが使用頻度からも想像できるなあ。
カナ配列薙刀式をつくったとき、
こうした単語は「話題の語」として、
「話題によって変わり得る言葉」と定義した。
なので、話題は時々変わるから、
それらをつなぐ言葉、接続詞や助詞や語尾部分を、
打ちやすくした方が使いやすい、
という考え方でつくったものだ。
だけど、漢字は話題の語に集中するよね。
そりゃそうだ。
・固有名詞による偏り
そういえば日本語では、ほとんどの固有名詞は漢字である。
気づいてなかった要素だなあ。
日本、昭和、東京、明治、平成、中国、大阪、合衆国。
あるいは所属的なことへの言及。
大学、世紀、時代、国際、全国、等学校、高等学
これはWiki文体と重なり合う部分もあろう。
各固有名詞を詳らかにすることは、
解説の面目であるからね。
「よく使う固有名詞は、
よく使う漢字だろうか?」
の問いは、なかなか難しい問いだ。
日本、東京、合衆国、中国。
昭和は減って今後令和が増える?
うーむ難しい。
これらの偏りを除いたとして、
「統計的な平均的日本語文章」になるか?
は100%イエスとは言えないが、
参考になるのは確かだ。
データを読み取るのは人間にしかできまい。
次にリクエストもしたいな。
マトリックスがほしいです!
しかし全マトリックスはnの2乗になり、
表記が膨大になり、いらないところがたくさん出るので、
ある漢字Xについて、
Xの直前に来る漢字トップ10、直前の漢字トップ10の、
表があると、
連接が考えやすくなる、はず。
何文字あれば妥当なデータが出るかは分からないが、
メモリ量が莫大になりそう…
こうした基礎データは機械でやるしかなくて、
コードが書ける人が強いので、
できる人お願いします…
これをマルコフ連鎖として機械学習させると、
ありそうな熟語を吐くAIができそうだ。(余談
2023年08月23日
この記事へのコメント
コメントを書く
この記事へのトラックバック