kouyさんの100万字統計あるな、とNgramを見に行ったら、
https://kouy.exblog.jp/9731073/
なぜか.txt形式なのよなー。
https://kouy.exblog.jp/13653611/
の2gramは.ods形式で、よく利用させてもらっているのだが、
なぜ.txtなのかは謎。
そのまま読み込んでも文字化けしているし、
うーむ、どこかに別のデータはないものか。
(誰かこれをエクセルなどで開く方法がわかる人いたらコメントください)
目的は、
日本語の文節の基礎であるところの、
5カナを一気に打ったらどうなるのか検証すること。
まあまずは薙刀式でざっとトップ100くらいを打ってみたい。
7モーラ検証用に、7gramもあればよいのだが……
そういえば、
日本語のリズムの基礎は七五調だというのに、
なぜこれまで5モーラ、7モーラに関する連接は研究されていないのだろう?
英語では、一音節をどう同時押しするか、で、
ステノワードの仕様が決まっている。
それの連想から、日本語は5音7音で考えるべき、
までたどり着きそうな気がするのだが……
組み合わせ爆発が多すぎ?
そもそも7カナも一気にみんな打たない……?
2025年07月07日
この記事へのトラックバック


紙とエンピツ_ブログ版
2025年5月7日
かなの出現数・連なり数データ(n-gram)
https://y-koutarou.hatenablog.com/entry/2025/05/07/005724
1234 gramのスプレッドシートに加工されたデータがあります。
ページ最後に
元テキストファイルの文字化けを直し方法が書かれています。
そんな所に答えが……
情報ありがとうございます。
解読してみます。
exciteとはてなの2種類があり、
検索で引っかかるのははてなが優先であり、
件の記述はexciteのものしかない、ということが判明。
google検索ではてなの方を見てた僕は、
その記述に気づかず。
で、
ブラウザで開いて保存したり、
メモ帳で開いて文字コードを5種類
(ANSI、UTF-16LE、UTF-16BE、
UTF-8、UTF-8BOM付き。これが何を意味してるか、
正確には理解してないが)
試しても、
文字化けしたままで読めなったです。
さてこまった。
うまくいかない場合がありました。
色々と試していて文字化けせずに読めました。
その手順を書きます。
chromeを使います。
テキストのリンクを開きます
右クリック押して
名前を付けて保存をします
保存したファイルのサイズを確認します
N-gram_1gram.txt 4kb
N-gram_2gram.txt 69kb
N-gram_3gram.txt 985kb
N-gram_4gram.txt 2663kb
N-gram_5gram.txt 3183kb
N-gram_6gram.txt 2915kb
メモ帳だと読み込みが遅いので
Notepad++ というソフトを使いました。
Notepad++だと自動認識でUTF-8で読み込んで
文字化けせずに表示しました。
メモ帳でも
ファイル 開く
文字コード 自動認識からUTF-8に変更してから
開くで読み込みが遅いですが文字化けなく表示しました。
4gram データ先頭
82 、〓、〓 4
2 、〓、ぎ 4
3 、〓、そ 4
2 、〓、に 4
3 、〓、ま 4
5gram データ先頭
47 、〓、〓、 5
3 、〓、〓。 5
2 、〓、〓〓 5
3 、〓、〓え 5
5 、〓、〓と 5
6gram データ先頭
39 、〓、〓、〓 6
2 、〓、〓。〓 6
2 、〓、〓〓の 6
3 、〓、〓えん 6
2 、〓、〓とい 6
〓は、かなと句読点以外(空白も含む)を
処理した残りデータなので、
文字化けとは関係ないですね
>82 、〓、〓 4
あー、これだけ見てこれは文字化けだろうと思ってました。
このあとしばらくしたら意味のある文字列がありましたわ。
メモ帳、UTF8で開いたときです。
〓ってなに。
今この環境で見えているのは漢字の二みたいな下駄の跡のような記号です。
見れたとはいえ、これソートしないと使えないかー。
最初の数字が出現回数だとして、
それ順に並べるのはエクセルのつかえない俺は人力でやるしかないなー。5gramtop100をコピペしたかっただけなのだが……
暇だったらやるかー、くらいかな……
100万字日本語かなn-gramデータ : ローマ字入力でもなく、かな入力でもなく
https://kouy.exblog.jp/9731073/
n-gramデータ作成手順5に、
〓に置き換え処理をする理由が書いてあります。
>最初の数字が出現回数だとして、
テキストデータの並びは
morogramの出力形式の
頻度[水平タブ]文字列[水平タブ]gram数
になってます。
あーブログだから情報が都度バラバラなんですねー。
あとで辿れるようにしておいてほしかったw
文字化けを解消するところまでできたら、あとはExcelなどにコピペすれば加工はできると思いますが、あまり人力で調べるファイルではないと思います……。
テキストファイルをアップしているのは、要するに“morogram”で出力されたファイルを一切加工せずそのままアップしたからです。当時のPCだと(?)4gram以上は開くだけでも時間が掛かるような重い作業だったので、あまり触りたくなかったので、加工は使う人に任せてとりあえず結果をそのままアップしました。
でも、いま6gramを開いて、Excelにコピペしたら、129421行になりましたが、大して時間も掛からず普通に貼り付けできました。Google スプレッドシートも多少時間はかかりましたが、問題なく動きました。むしろ、文字化け解消のためにメモ帳で開くところが一番重い。
これだったら6gramまでGoogle スプレッドシートに上げても問題ないかもしれないので、ちょっとやってみます。
あーなるほど、当時のpcのスペックてのもありますね……
たぶんExcel化するのに重いんだろうなー、
というのは予測してたので。
ちなみに5gramに関しては、
手動で解析したので笑、
その記事を次にアップします。
やたら「情報セキュリティ」が多くて、
なんと5gram1位は「じょうほう」でした……
https://y-koutarou.hatenablog.com/entry/2025/05/07/005724?_gl=1*y13fa7*_gcl_au*OTA2MTkyMjIzLjE3NTE5ODYwMTc.#1-6gram%E3%83%87%E3%83%BC%E3%82%BF20250708%E7%81%AB%E8%BF%BD%E8%A8%98
でも、もう自力で解析されたんですね(^_^;) さすがです。
5gram以上となると、元の文の偏りが見えてしまいますね……。あと明白な変換ミスもちらほら……。ある程度仕方ないとは思いますが、良いことではないですね。これらの欠点がないデータがあったら自分も見たいです。
おつかれさまです。利用させていただきます。
6gramがあれば拗音だけ使って5モーラ統計できないか、
と企んだんですが、「状況が」みたいな2つ拗音入ってるのを捕まえられないなー、などと。
元のデータが残ってるなら、
おひまな時でいいので5モーラの統計とかできると、
おもしろいかもしれないです……
たとえばトップ100の5モーラをタイピングする動画とかを、
撮ってみたいんですよねー。
100万字集めてもまだデータの偏りがあるとしたら、
ひと桁上げないとだめなのかしら。
そもそも言語は自由長だから、
Ngramを基準にすることがまちがってるかも。
思ったより俳句的な5文字が入ってないんですよねー。