2025年02月10日

【薙刀式】漢字N-gramデータが岡さんによって調査中

オッ、流石です。
https://x.com/kanchokker/status/1888564230548496436


僕がやりたいことは以下。

SDF(などの3〜4キー)を押しながら右手で一打すると漢字が出るシステム。


日本が一位だから、仮にJIに入れれば、
最速アルペジオで日本が出る。

次に、Oに当、Kに々を入れる。

そうすると、

  本当
 日々

のような配置になるため、
日本、本当、日々、日当が、すべてアルペジオで打てるようになる。

ただ、日々、日当はそこまでいい運指を与えるべきではないだろう。
本当、もかな。当々も良い運指になってしまうが、
そんな単語はない。

日刊、日記、日誌…などを持ってきたらどうか。
日記から、記録、記述…などにつながるか。

…みたいなことを延々やって、
熟語アルペジオ中心の漢直を考えたい。

そのために、
「重要な熟語」を知りたいのだ。

頻度(客観)もそうだし、本質的な(主観)、もそうだ。


たとえば、
  上
 内以外
  下
とかは考えた。
だけど外国、内容、などへの展開はまた別の話になりそう。



これは、薙刀式の編集モードの拡張である。

何をどう選び出すか、本当にそんなネットワークがうまいことつくれるのか?
については確信がない。
だけど、熟語選定の基準や、
「そもそもどういう熟語があったっけ?」
と考えるための材料がほしいのだ。

なので、
N-gram漢字はその基礎データになるだろうなー、
という読み。


しかしwikiは相当偏ってるなー。
政治とスポーツと放送が多そう。
Twitterとかリアル目の文章だと全然違いそう。
(クラスタで全然変わるだろう…)
posted by おおおかとしひこ at 11:25| Comment(4) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
Wikipediaから抽出した漢字2〜4連接の頻度データを gist に公開しました。

リンクについては、下記ツイートを参照下さい。

https://x.com/kanchokker/status/1889123212359069871

4連接は固有名詞(組織名)ばっかりですね。普通名詞のみに限ったやつも作れますので、必要でしたらおっしゃってください。
Posted by 岡 俊行 at 2025年02月11日 10:36
>岡 俊行さん

おつかれさまです。

4gramは固有名詞を除いたら何が残るのか、
ちょっと興味ありますね。(後生大事があったのは確認)

3gramも固有名詞を除くとどういうものが出てくるのかは、
結構意味のあるデータになりそうです。
たとえば10000近くのラストの方でも、力一杯、異分子なんかが入ってるので、
まだまだ普通のボキャブラリーが取りこぼされてそう。

2gramは10000までいっても、
よく使う普通の言葉が入ってて、
(たとえば10000は総代だが9998は店名)
これくらいはカバーしないと意味ないなーと思って眺めてました。

これを参考ベースに何か考えられそうな気がします。

T-codeが設計された時、
こうした漢字連接が考慮されたという話は聞かないため、
連接考慮漢直のいいベースデータになるのではないでしょうか。
Posted by おおおかとしひこ at 2025年02月11日 11:56
固有名詞を除いたものを作成してみました。

https://x.com/kanchokker/status/1890996380686012700

4gramについては、2〜4文字の漢字を含むものも作ってみました。

T-Code は、今考えると、かなり配置がメチャクチャですね。なので、人にはあまりお勧めできません。

ということで(この漢字連接を考慮して、というところまでは行きませんが)配置を見直しつつあって、すでに200文字くらいを配置替えしています。
覚え直すのが大変ではありますがw
Posted by 岡 俊行 at 2025年02月16日 14:38
>岡 俊行さん

おつかれさまです。
弥勒菩薩が固有名詞か一般名詞かは、
解釈の別れるセンシティブな部分。笑
それだけ浄土真宗の勢いが強いということで。

3gramは津田沼とか三文字の固有名詞が除かれるという、
逆が興味深いですね。
三文字の固有名詞は、二文字四文字に対して目立つので、
残りやすいという性質もあるよなー、
などと別のことを考えてしまう。


しかし200ほど漢字を覚え直すのにどれだけかかるのだろう…
1ヶ月じゃ無理そう。
Posted by おおおかとしひこ at 2025年02月16日 19:27
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック