2023年05月27日

【薙刀式】日本語全文字頻度表がみつからぬ

ひらがな別頻度統計、漢字別頻度統計などは権威のあるものがあるけど、
「全文字統計」(漢字かなカナ数字記号アルファベット全混じり)
ってなくない?

調べてもPythonでの作り方しか出てこなくて、
俺は結果を利用したいだけなのだが…


漢直をやろうと思うと、
日本語の実態を考えなければならない。

かなは分かってるから、
漢字とひらがなの関係を知りたいんよね。

仮に2000漢字として、
かなを1モーラとして130種、
カタカナを1モーラとして130種、
数字アルファベット記号なんかを100程度として、
2360文字の頻度表。

できればその上位100程度の、
2gram頻度もね。


1位はなんだろ。「の」かなやっぱ。
「日」「人」より多そう。
案外「、」かも?

もしあったら教えてください。


posted by おおおかとしひこ at 13:15| Comment(0) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック