ひらがな別頻度統計、漢字別頻度統計などは権威のあるものがあるけど、
「全文字統計」(漢字かなカナ数字記号アルファベット全混じり)
ってなくない?
調べてもPythonでの作り方しか出てこなくて、
俺は結果を利用したいだけなのだが…
漢直をやろうと思うと、
日本語の実態を考えなければならない。
かなは分かってるから、
漢字とひらがなの関係を知りたいんよね。
仮に2000漢字として、
かなを1モーラとして130種、
カタカナを1モーラとして130種、
数字アルファベット記号なんかを100程度として、
2360文字の頻度表。
できればその上位100程度の、
2gram頻度もね。
1位はなんだろ。「の」かなやっぱ。
「日」「人」より多そう。
案外「、」かも?
もしあったら教えてください。
2023年05月27日
この記事へのコメント
コメントを書く
この記事へのトラックバック