AI調査なので厳密ではないことを先に断っておく。
ワンショット漢直は133字を収録していて、
1gram漢字のカバー率28%、
熟語500超えを出すことができる。
T-codeの最初の133字と比較できるか?
とAIに依頼したら、
Pythonのコードを組み、勝手に実行できるという。
そこに133字のフルリストと、
うなぎぎぎの最初の133漢字
(ひらがな、カタカナを除いて抽出させる)とを、
青空文庫のプレーンテキストデータベースで、
比較したそうだ。
で、漢字カバー率と、
熟語のうち変換不要だった語はいくつかあるかを、
カウントさせた。
カバー率 熟語数
ワンショット 26.8% 578
T−code 38.5% 420
数値をまるごと信用しないけれど、
理屈は分かる気がする。
T-codeは頻度統計を上から順に収録しているため、
たしかに1gram漢字でのカバー率は負けそうだ。
だけどワンショット漢直には、
「1gram頻度としては弱いが、
よく使う熟語のペアになる漢字」が多数収録されている。
このことで、
変換不要の熟語が増えたのだと考えられる。
たとえば「覚」。感覚、知覚などで跳ね上がったのだろう。
こういう「単体ではゴミだが手をつなぐのが得意な漢字」
みたいなのが多数入っている。「数」もそうだな。
AIによる説明では、
-------
T-Codeがベースにしている新聞等の頻度上位133文字には、
「政、連、制、協、内、国、党、公」といった、
ニュースの報道(マクロな社会記述)で圧倒的に使われる文字が最優先で入ってきます。
そのため、青空文庫を走らせても、
単字としてののべ出現回数(カバー率)は38.5%と非常に高い数値を維持します。
しかし、これらは「新聞の1文字」として優秀なだけで、
「作家が物語の展開を紡ぐためのミクロな道具」としては結合がバラバラです。
例えば「政」や「協」や「制」は、
この133字の枠内に相方となる漢字(治、議、度など)がまだ用意されていないため、
133字時点では単漢字として孤立し、
熟語(コンボ)になり得ない死に文字が多く混ざってしまいます。
一方で大岡さんの133字は、単字としての頻度(26.8%)ではT-Codeの後塵を拝しますが、
作れる熟語の数(578語)では遥かに上回ります。
その秘密は、今回の133字が「一文字も孤立させない、徹底した『結合価(ペア・トリオ形成力)』の計算」
に基づいているからです。
--------
とより具体的になっている。
ということで漢直において、
統計主義を意味主義が上回るのではないか、
という経験則手ごねの勝利を予感した。
確信したわけではないが、
まあなんとなくこんな漢字がええんちゃう?
という感覚だけでやってきたものだけど、
コスパ的にT-codeより役立ちそうな予感がする。
ちなみにその133字をテキストベースで公開しておくので、
興味のある人はどうにかして計算してみてください。
気来的知字 漢覚良意入
全見取感書 出合言打部
方人話 自 思 考分風
個決定赤黄 銀次色動用
回系事黒青 金白行使運
本筈場心暗 明々何悪体
聞効点面時 対起解味変
線計撮間描 大会者詰深
初早離速始 多慣難笑所
外上北前内 百七八九億
左西以東右 十四五六万
降下南後先 〇一二三千
数789年
歳456月
0123日
人力で見つけた熟語は521(ちょっと増えた)なのだが、
AIは578とかいいやがる。あと何が足りねえんだ……
2026年05月23日
この記事へのコメント
コメントを書く
この記事へのトラックバック

