2025年02月11日

【薙刀式】漢字N-gramは何位まで考えればええんやろ

熟語のネットワークを考えたい。
単漢字の出現頻度による漢直はすでにあるから、
どうせやるなら熟語をアルペジオで取れないか?
なんてなことを考えている。

その基礎データを岡さんが取ってくれた。
ありがたい。
https://x.com/kanchokker/status/1889123212359069871


しかし4gramがほぼ固有名詞に独占されてしまってるのはもったいない。

四文字熟語の定型句だけではなく、
日本語では2字熟語+2字熟語の複合語が、
結構出てくるからだ。
副業収入とかね。

ここまで考慮に入れるかは別として、
日本語はそういう言語であるのだ。
東京特許許可局とかさ。


3gramですら、
10000から逆に遡っていくと、
ラスト50の中に、
力一杯、異分子、求菩提、手弁当、受水槽を見つけられる。

手弁当なんて、和語+漢語熟語という、
日本語独特の熟語だ。

弁当箱、弁当屋くらいは思いついたとしても、
手弁当はなかなか思いつかない。
そしてこれは普通に使われる範囲だよなー。
(先日も手弁当参加のショボい予算の仕事がありました)


2gramなんか尻尾まであんこが詰まっている。
5000代でも普通に使う言葉ばかりだし、
10000でも普通に使う言葉。

6万語(推定)の僕のボキャブラリーの中に、
二字熟語は1万くらいは余裕で入ってるわけだ。

もっと魑魅魍魎とか、機序とか遺骸とか、
いつ使うねんみたいな言葉ばっかかと思っていたのだが。


漢直を作りたいなーとは思ってるものの、
どこまでを日常語の範囲とするか、
なかなか基準は難しい。
30年選手の岡さんですら1000字くらいが漢字の限界らしいので、
常用漢字2000オーバーは使いこなせないから、
混ぜ書き変換を使うのが残当だろう。

なので打ちやすいストロークを考えて500漢字に絞れば、
使いやすい漢直ができるのでは?
などと現在見積もっていて、
じゃあ何を採用して、何を採用しないかを決めなければならない。

仮に「弁」を採用するならば、
「手」と連接しやすく、「当」と連接しやすく、
「論」とも連接しやすく、「舌」とも連接しやすく…
などを考えるべきだと思っている。
でも「弁」は500の中には入らないかもしれない。

右手250、左手250と考えると、
少なくとも右手250からは漏れるだろうが、
「手」「論」「当」は右手250に入るよなーと。


そんなことを考えるための基礎データが、
とりあえず揃いつつあるようで、
とてもありがたい。

のにいるとの設計時にカナ同士の連接マッピングみたいなのがあったけど、
その漢字版がいるんだろうなー、
などと妄想している。
できるかはわからないが、
それを経ないと使いやすい漢直はつくれないだろう…


あと薙刀式で打ちやすいのは除く、
という選択肢もあるんよな。
打ちにくいやつだけ採用して、
補完的に使った方が有効、という考え方もある。
タイピングは律速を速くした方が速くなる説あるからなー。

真っ先にやりたいのは「意外」「以外」の打ち分けかな。
同音意義熟語も調べないとね…

posted by おおおかとしひこ at 12:22| Comment(2) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
漢直併用で交ぜ書き変換を使用する場合、以下の2点を確認しておいたほうがよいかと思います。

1. 利用しているIMEはどこまで交ぜ書き変換をサポートしているか

以前、MS-IME と Google日本語入力について試してみたことがあります。

MS-IME:
https://x.com/kanchokker/status/1433960213443350528

Google日本語入力:
https://x.com/kanchokker/status/1433362742572847105

どちらも今一つなのですが、Google日本語入力のほうは、ユーザー辞書で漢字を含む単語(品詞付き)が登録できます。なので、交ぜ書きという観点からは、Google日本語入力+ユーザー辞書、ということになりそうです。

2. 利用しているエディターが、漢字をIMEに渡してくれるか

こちらは結構盲点なのですが、たとえば、Windowsのメモ帳は漢直WSで入力した漢字をIMEに渡してくれます。しかし、ブラウザーのChromeの適当な入力エリアで、MS-IMEなりGoogle日本語入力などをONにして漢直WSから漢字を入力すると、それはIMEに渡らず、入力エリアのほうに直接入ってしまいます。

この点については、おそらくDvorakJも紅皿も同じ挙動を示すのではないかと考えています。

もし、このような問題に当たったら、私が開発中のIME版漢直WSを使う、というのも一つの解決策になるかと思います。ただ、他の方に使ってもらえるようになるのに、あと1年はかかりそう、というのが難点なのですが(笑)
Posted by 岡 俊行 at 2025年02月13日 21:39
>岡 俊行さん

あー実装のこと、なんもまだ考えてませんでした。笑

その先にそういう問題があるんですねー。
DvorakJ+MS-IME+iTextで数回テストした程度なので、
その先に何かつまづきがありそうだ…

まあ漢直やるかどうかわからん状態で、
まず漢字空間を眺めることからなので…
Posted by おおおかとしひこ at 2025年02月14日 06:58
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック