オッ、流石です。
https://x.com/kanchokker/status/1888564230548496436
僕がやりたいことは以下。
SDF(などの3〜4キー)を押しながら右手で一打すると漢字が出るシステム。
日本が一位だから、仮にJIに入れれば、
最速アルペジオで日本が出る。
次に、Oに当、Kに々を入れる。
そうすると、
本当
日々
のような配置になるため、
日本、本当、日々、日当が、すべてアルペジオで打てるようになる。
ただ、日々、日当はそこまでいい運指を与えるべきではないだろう。
本当、もかな。当々も良い運指になってしまうが、
そんな単語はない。
日刊、日記、日誌…などを持ってきたらどうか。
日記から、記録、記述…などにつながるか。
…みたいなことを延々やって、
熟語アルペジオ中心の漢直を考えたい。
そのために、
「重要な熟語」を知りたいのだ。
頻度(客観)もそうだし、本質的な(主観)、もそうだ。
たとえば、
上
内以外
下
とかは考えた。
だけど外国、内容、などへの展開はまた別の話になりそう。
これは、薙刀式の編集モードの拡張である。
何をどう選び出すか、本当にそんなネットワークがうまいことつくれるのか?
については確信がない。
だけど、熟語選定の基準や、
「そもそもどういう熟語があったっけ?」
と考えるための材料がほしいのだ。
なので、
N-gram漢字はその基礎データになるだろうなー、
という読み。
しかしwikiは相当偏ってるなー。
政治とスポーツと放送が多そう。
Twitterとかリアル目の文章だと全然違いそう。
(クラスタで全然変わるだろう…)
2025年02月10日
この記事へのトラックバック
リンクについては、下記ツイートを参照下さい。
https://x.com/kanchokker/status/1889123212359069871
4連接は固有名詞(組織名)ばっかりですね。普通名詞のみに限ったやつも作れますので、必要でしたらおっしゃってください。
おつかれさまです。
4gramは固有名詞を除いたら何が残るのか、
ちょっと興味ありますね。(後生大事があったのは確認)
3gramも固有名詞を除くとどういうものが出てくるのかは、
結構意味のあるデータになりそうです。
たとえば10000近くのラストの方でも、力一杯、異分子なんかが入ってるので、
まだまだ普通のボキャブラリーが取りこぼされてそう。
2gramは10000までいっても、
よく使う普通の言葉が入ってて、
(たとえば10000は総代だが9998は店名)
これくらいはカバーしないと意味ないなーと思って眺めてました。
これを参考ベースに何か考えられそうな気がします。
T-codeが設計された時、
こうした漢字連接が考慮されたという話は聞かないため、
連接考慮漢直のいいベースデータになるのではないでしょうか。
https://x.com/kanchokker/status/1890996380686012700
4gramについては、2〜4文字の漢字を含むものも作ってみました。
T-Code は、今考えると、かなり配置がメチャクチャですね。なので、人にはあまりお勧めできません。
ということで(この漢字連接を考慮して、というところまでは行きませんが)配置を見直しつつあって、すでに200文字くらいを配置替えしています。
覚え直すのが大変ではありますがw
おつかれさまです。
弥勒菩薩が固有名詞か一般名詞かは、
解釈の別れるセンシティブな部分。笑
それだけ浄土真宗の勢いが強いということで。
3gramは津田沼とか三文字の固有名詞が除かれるという、
逆が興味深いですね。
三文字の固有名詞は、二文字四文字に対して目立つので、
残りやすいという性質もあるよなー、
などと別のことを考えてしまう。
しかし200ほど漢字を覚え直すのにどれだけかかるのだろう…
1ヶ月じゃ無理そう。