同指連続の調査をコツコツやってて、
「ふわ」が100万字統計で6しか出てないのに驚いた。
「ふわふわ」でしか出てこない組み合わせだろうけど、
じゃあ100万字の文章に「ふわふわ」は1.5回しか出てこないんだ。
(家庭不和などもあるか…)
ついでに「ごわごわ」とどっちが多いのか調べると。
ふわ 6
ごわ 2
という結果になり、
ふわふわ>ごわごわという結果になった。
世界は優しい方向になっていた。
「ごわ」の組み合わせは、おそらく「ごわごわ」の2回カウントだろうか。
それとも「こわごわ」が2回出たのだろうか。
あるいは「ご破産で願いましては」を「ごわ」と変換したか。
(ちなみにiPhoneでは「ごわさん」でご破産は出ない模様)
これをみると、
自分の中の基本的なボキャブラリーって、
100万字統計では拾いきれてないのでは?
と思い始めてきた。
ふわふわ/ごわごわなんて、
タオルぐらいにしか使わない言葉だろうけど、
「生活の中の基本語彙」ではあるような気がする。
それを、100万字では拾えきれてるとは限らない、
というのが発見だ。
ううむ、単純に100万字も集めれば、
日本語全部とは言わないまでも、
かなり正確な描像になると勝手に思っていたが、
今僕が考えている、
「日本語の基本語彙」には、
足りていないのかも知れないなあ。
もちろん外国人がここまでマスターしろとは言わないが、
こんな子供でも知ってるふわふわ/ごわごわが、
統計にギリ乗るか乗らないかレベルだとしたら、
もう一桁か二桁精度を上げないといけないのかもね。
(統計の取り方はkouyさんのオリジナルページに詳しいが、
この数回程度の出現率は、漢字のかな変換のバグに阻まれて、
正確に出ていないかもという注意はしておく)
とはいえ、
1000万字、1億字統計、
と考えたらやる気がなくなるので、
気づかないフリをしておくか…
ちなみに日本語のボキャブラリーで調べてみると、
教養のない大人で1.5〜3万語、
教養のある大人で3万〜5万語だそうな。
ネットに転がってる診断をしてみたら、
僕の語彙は35404で上位0.22%らしい。
https://www.arealme.com/japanese-vocabulary-size-test/ja/
教養のある大人に入るとは思うが、
もっと上の方はカットしてあるのかね。
どっちが正しいのかはわからんが、
ざっくり数万語と考えようか。
数万語×3文字としても、
それで10万のオーダーに乗る。
マイナー語でもまあ数回は出たいなあと考えると、
それを二乗くらいしておかないとダメかな。
となると、100億字程度は統計をとって、
「ボキャブラリーを大体尽くす」
くらいになるのかも知れない。
それはちょっと現実的ではないな…
「平均的な日本語を効率よく打つ」ことが、
配列設計の基本であろう。
問題になるのは精度である。
統計的に出現率が低くとも、
これはスルッと打てんといかんやろ、
みたいな言葉が、たまにあるような気がする。
手ごね配列である飛鳥や薙刀式は、
そのへんまでケア出来ているような気がするが、
機械計算配列だと、
この精度までやってないだろうね。
膨大な統計だと思われた100万字統計が、
精度としては足りないような気がしてきたので、
計算配列への信頼がぐらついてきたな…
配列設計を勝手に世代わけした、僕の昔の記事によれば、
現在は第三世代である。
それのベースとなる基本統計を、
やり直す時期にいるのかもしれない。
(やり方がわからんのでやりませんが)
今統計取るなら、口語が中心になるのかなあ。
標準語だけでいいかなあ。
そのベースの議論がムズイな。
…などと、
ふわふわ/ごわごわで、考えておりました。
2022年03月30日
この記事へのコメント
コメントを書く