カベウチドリさんのつくった解析器で、
https://github.com/kabeuchi-bird/kanji-ngram
分析してみたら面白かったのでさらす。
ソースは自分の文章だけど、
けっこう多岐にわたり、
単独ジャンルだと偏るだろうと思ったので、
まずジャンルわけをする。
ブログ文 脚本論と薙刀式の話
一か月分、38万字
脚本
5本、17万字
小説
2本、29万字
3本、140万字
小説の110万字のやつがでかすぎる。笑
これを含む含まないで、
220万字、84万字の2種のデータをつくってみた。
以下が生の結果。
(.csv形式なんだけど、エクセルで開くと文字化けします。
メモ帳で開けば見れます)
MIX220_ngram3.csv MIX220_ngram2.csv MIX220_ngram1.csv
MIX84_ngram3.csv MIX84_ngram2.csv MIX84_ngram1.csv
しかし220万字の3gramが1秒もかからずに計算してびびった。すげえ。
解析をしていこう。
まず大規模なほうから見ていく。
3gramでは、
110万字の妖怪退治小説の影響が強く、
心の闇、光太郎、天狗、妖怪などがとても多い。
あるいは恋愛小説の「彼女は」、冒険小説の「高橋は」がめっちゃ多い。
固有名詞、用語などの、
話題の語が文章には多い、という僕の直観を裏付ける結果になった。
薙刀式もまあまああるね、当然。
2gramになると、固有名詞をのぞくと、
の中、と思、言っ、心の、思っ、取り、考え、
人の、出し、見え、思う、見て、人は、の人、
などが出てくる。
これは非常に興味深く、
「中」「考」をのぞいて、今ワンショット漢直で採用しているものばかり。
これらは採用かもしれない。
1gramになると固有名詞や話題の語が除かれるのかな。
人、一、見、大、出、中、分、言、思、上、
天、手、山、何、彼、女、子、心、来、怪、
天狗、妖怪、彼女の影響がありそうだが、
だいぶまともなものになっている。
なるほどねー。これくらいでようやく大数の法則が効くのかもしれない。
じゃあ天狗小説110万字の影響をなしにして、84万字で見てみると。
3gramは、
高橋は、薙刀式、青山「(脚本形式)、
狂天寺、韮澤「、田中「
などの、固有名詞関連がごろごろと出てくる。
ーマ字、なんてローマ字の一部も出てくるね。
これくらいの固有名詞の漢字が全部平均化されるには、
どれくらいのジャンルを広く集めないといけないのかしらね。
2gramになると、
と思、の中、思う、を見、彼女、考え、私は、
中で、人は、の人、僕は、言っ、見て、俺は、
などの文章のパーツがやってくるね。
人称代名詞は、
薙刀式ではかなり優遇している運指だから、
その漢字版も考える必要がありそう。
君は出てこないんだねー。
彼が一番多そうだな。彼、彼女両方に出てくるからなー。
1gramだと、
人、中、一、上、思、見、分、出、手、言、
山、大、本、何、高、書、私、彼、女、時、
などのようだ。
220万字の、
人、一、見、大、出、中、分、言、思、上、
天、手、山、何、彼、女、子、心、来、怪、
と微妙に異なる。
いずれにせよ、けっこういい感じで自分が使うなー、
というものが出ている。
こういうものを集めれば、
案外ちゃんとしたものになるかな?
ちなみに、令和4年の文化庁資料だと、
人、一、大、日、年、出、言、本、生、分、
見、者、上、中、自、事、思、行、時、手、
という内容。
わりといいところ来てる?
新聞ソースだから、年月日が多くなるのはまあ分る。
ちなみに、
そもそもこの話って、「思」からの活用形って、
何形が多いんや、と疑問に思ったところから。
220万字2gramから調べると、
思う 1092
思わ 384
と、終止連体形の圧勝。へえー。
ほかに、
思っ 1416
思い 817
思え 181
思お 1
という結果になった。
思う+思い 1909
思わ+思え(ない) 565
と、3倍差があるんだなー。
(思った、思ってないの両方がありえるから、「思っ」はカウントせず)
ポジティブな人でよかったー。
とはいえ、肯定形と否定形でいうと、
ざっくり3対1くらいでありえて、
否定形は「ない」がほぼ出てくるだろうから、
「ない」の頻度は高いんだろうな。
なかなか調べようがあるデータなので、
暇な人解析してみて。何か分るかもしれない。
ブログ文が少ないから、それを増やすと、
また結果がかわりそうだ。
結局ソースに影響されるというのはいいとして、
どういうソースの配分にすると妥当なのか?
はどういう議論をすればいいんだろう。
あとエクセルに読み込めれば、
何文字あれば何%カバーする、
みたいな計算ができるはず……
2026年04月02日
この記事へのトラックバック


もし動かない場合、昨日のバージョンで作ったCSVをShift-JISで保存し直せば上手くいくかもしれません。
メモ帳で名前をつけて保存する時、文字コードを選ぶ欄が(ファイル名の下あたりに)あるはずです。そこでShift−JISに変更し、保存し直すと文字コードがきちんと変更された覚えがあります。
ありがとうございます。ためしてみます。
文字コードの問題とかCRLFの問題とか見ると、
「人類は永遠に理解し合えない……」とか思っちゃいますねー。
CRLFに関してはwikiを読むと歴史的経緯なんだなー、
それを超えることはqwerty同様できないのかもねー、
なんて思います。
人類いろいろあったが、次世代のために団結しようではないか、
なんて誰もやらないんだなw
同感です。色々なところで新しい未来を作ろうとする運動が起こっては飽きられて、みたいなのが山程ある気がします。
ITなんて時代を変えた最たるものだろうに、過去の遺物みたいなタイプライターの慣習をどうして引きずるのか……
人類ってわかりあうことをあんま求めてないんじゃね、みたいな高校生が考えがちな思考に至りそうです()