2025年02月04日

【薙刀式】漢字熟語のみのNgamデータってないんだっけ

たぶんv16がこれで確定しそうなので、
少し別のことを考え始めた。

漢直のことをまた考えている。
熟語単位のデータってなかったけ。


1gram漢字の頻度ならば、新聞などのデータがある。
二字熟語に限った2gramのデータ、
三字熟語に限った3gramのデータ、
四字熟語に限った4gramのデータ、はないものだろうか……
(五字以降はどう考えても複合熟語だろう)

ちょっと探してもなかったので、
だいぶ本気で探さないとなさそう。

探した中で面白かったもの。

高校入試でよく出てくる二字熟語
思考 救助 減少 増加 停止 絵画 河川 強弱 寒暖 苦楽
高低 損得 左右 縦横 男女 国営 骨折 人造 日照 雷鳴
円高 頭痛 帰国 着席 登山 読書 作文 納税 暗示 仮定
再会 最高 新年 温泉 黒板 海底 光線 不正 未開 無礼
非凡 否定 未知 不明 山々 堂々 広々 黙々 続々 高々
種々 諸島 第一 貴社 自然 適性 赤字 光陰 星霜 白眉
特急 入試 高校 中学 農協 国連


就職試験でよく使われるSPIで頻出する二字熟語
(書き取りはかなりレベルが高いので、おそらく読みの試験だろう)
瓦解 言質 不憫 沿革 断腸 雄飛 罷免 席捲 顧慮 釈然
透徹 鳥瞰 斯界 逓減 老練 督励 跳梁 耽読 暁通 猜疑
趨勢 佳境 獰悪 敷衍 至言 伝播 漸進 崇高 脆弱 披瀝
再三 桎梏 英知 垂涎 僭越 狼狽 金言 英断 焦眉 気鋭
伍する 迎合 吹聴 殊勝 粉飾 進言 軋轢 詭弁 会得 符合
流布 躍如 至言 委細 謬見 狡猾 公算 看破 卑近 困憊
尊大 憐憫 営々 胆勇 比肩 出色 泰然 腐心 斡旋 雌伏
回顧 安泰 恭順 呵責 杞憂 傀儡 甘受 機知 漸次 懐柔
義憤 奸知 進取 闊達 啓蒙 新鋭 孤児 奔流


自分がどれくらいのものが欲しいのか?
を考えるときに、
言葉の難易度というか、
どういうものがどういう分布になっているのかのイメージが欲しくなった。

今のところ考えているのは、450字登録したパターン。
これなら覚えられて運用も出来るだろうと。
小学校で習う漢字が1026なので、その半分となると、
漢字変換ですぐ出せそうなものや、
簡単すぎる漢字はいれなくてよい、
という感覚になってくる。

薙刀式と併用する前提で考えると、
やっぱ同音異義を漢直で打ち分けたくなるので、
同音異義の多い熟語とかを調べたくなる。
どうやって調べようか。
(一覧は見つけたが頻度順ではなかった)


posted by おおおかとしひこ at 17:36| Comment(12) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コーパスとしては、国立国語研の『現代日本語書き言葉均衡コーパス』というのが良さそうなんですが、有償なんですよね(結構高い)。

形態素解析辞書の ipadic に登録のある名詞で漢字の2〜4文字のやつを抽出して、Wikipedia で頻度を求める、ということであれば出来そうです。

あるいは、大岡さんが公開された脚本や小説のデータで頻度を計算することも出来るかと思います。
Posted by 岡 俊行 at 2025年02月04日 22:43
>岡 俊行さん

とりあえずみんなが役に立ちそう、という点ではwikiがいいんじゃないですかね。

物語文は固有名詞を除かないと、やたら「小林」が多い、とかになるので、
登場人物一覧をつくる必要があるため面倒そう。
あとジャンルの偏りもあります。
犯人、警察、逮捕が多いとか、告白、誕生日、好意が多いとか。
その辺の前フィルタを必要としないのは、
wikiかなーと。

予想一位: 日本か人物あたり
Posted by おおおかとしひこ at 2025年02月05日 09:18
k-codeはWiki(pedia)を参考にしました。
https://cs.mkamimura.com/posts/2024/09/k-code%E8%A1%A8-%E8%A8%AD%E8%A8%88%E6%80%9D%E6%83%B3%E3%83%BB%E8%A8%AD%E8%A8%88%E6%96%B9%E6%B3%95-%E5%88%A9%E7%94%A8%E3%81%97%E3%81%9F%E3%83%87%E3%83%BC%E3%82%BF.html
(2打鍵の漢字をを眺めてみてもしなんか参考になることでもあれば。)
Posted by kamimura at 2025年02月05日 20:36
>kamimuraさん

情報ありがとうございます。
リンクされたwikiの専門用語が一つもわからんので、
(まずダンプってなに、から)
わかる人が漢字連続部の頻度データを整えることを期待します…
Posted by おおおかとしひこ at 2025年02月05日 21:02
k-codeを作った時のデータとかソースコード眺めてたら、漢直だから漢字のみではない2-gram、3-gramの頻度はあったけど、漢字のみのx字熟語のデータはありませんでした。
既存のデータを漢字でフィルタリングすれば簡単にすぐ分かりそうだから、気が向いたら調べてみようと思います!
(簡単なのに、簡単だからこそなかなかやってみようと気が向かないという矛盾…)
Posted by kamimura at 2025年02月06日 13:52
>kamimuraさん

スクリプト書ける人ならすぐだろうと思ったので、
できる人任せた!のつもりで書いた記事です。笑

何を考えているかというと、
「熟語をアルペジオで打ちたい」ってことです。
今考えているのは、
たとえば「SDFを押しながら右手1打」で一漢字のシステムです。
なので、JIにたとえば「日本」と入れられるでしょ、
ということです。
カナ配列の設計でやるところの、
「連接をアルペジオに仕込んだ」漢直がつくれるのでは、
と思っていて、
その基礎データが欲しいんですよねえ。
Posted by おおおかとしひこ at 2025年02月06日 16:36
2-gramの上位100まで調べてみました。https://cs.mkamimura.com/posts/2025/02/%E6%BC%A2%E5%AD%97%E7%86%9F%E8%AA%9E%E3%81%AE%E3%81%BF%E3%81%AE2-gram%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF.html
設計に連結しか必要なかったから、二字熟語ではない、三字熟語の一部とか、単なる漢字の連続も含まれてるかも。
(3-gramのデータはなかったです。m(_ _)m)
Posted by kamimura at 2025年02月10日 14:33
>kamimuraさん

おつかれさまです。
うーん、100じゃ漢字同士の関係性まで炙り出せないのかー。
これが別のソースだとまた全然変わりそうですね。
Posted by おおおかとしひこ at 2025年02月10日 15:45
出現頻度1回までなら39453位まで、出現頻度0回まで(ようするにk-codeに含めた全ての漢字の組み合わせ)なら43264位までありました。
眺めて関係性さぐるには100位までが適度で十分で、それ以上だと眺める気がなくなると思って100位までにしましたが、もし200位、500位、1000位、それ以上でも眺めて見たいなら、すぐに用意できますよ。
さすがに10000位とかまでだと
>別のソース
(データ)を元にした2-gramを眺めた方がいいかも。
Posted by kamimura at 2025年02月10日 18:29
>kamimuraさん

100^2のオーダーがないと無理だなーと眺めてたので、
線形倍程度ではネットワーク的にならなそうだと思ってました。
でも1万を見るのもつらそう…
(常用漢字2000として2000^2=400万よりは少ない)
とはいえ、
自分のボキャブラリーを前測定したときは6万語くらいだったから、
少ないっちゃあ少ない。

単漢字の新聞頻度を見てると、
数百では全然足りないので、
我々日本人はたくさん漢字を扱ってるんだなーと思います。

もしよろしければどこかにあげていただくと、見に行くかもです。
Posted by おおおかとしひこ at 2025年02月10日 18:43
ということで(?)あげてみました。
https://cs.mkamimura.com/posts/2025/02/%E6%BC%A2%E5%AD%97%E3%81%AE2-gram%E3%81%AE%E9%A0%BB%E5%BA%A6%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8%E3%81%9D%E3%81%AE%E5%8F%AF%E8%A6%96%E5%8C%96%EF%BC%88%E7%B7%9A%E5%BD%A2-%E5%AF%BE%E6%95%B0%E3%81%AE%E3%82%B0%E3%83%A9%E3%83%95%EF%BC%89.html
もし気が向いて、見にきて、さらに何か参考になることでも見つかれば。
(たいして参考になることが見つからないかもしれませんが…w)
Posted by kamimura at 2025年02月11日 14:44
>kamimuraさん

おつかれさまです。

意外だったのは、
10000位くらいともなると、
二字熟語がほとんど出現せず、
もっと多くの文字の熟語(複合語)の一部と思われる部分ばかりになることです。

たとえば「二字」「熟語」は我々には理解できても、
「字熟」はほとんど意味をなさない、的な。

そして常用漢字を2000として、
その二乗の400万通りあるはずですが、
4万いかないうちに0回になることですね。
つまりあり得る空間のほんの一部を使って、
我々は言語を用いている、というのは興味深いです。

シェイクスピアの猿のパラドクス
(ランダムな文字を猿がタイピングするとして、
無限回打てばその中にシェイクスピアが含まれる)は、
思ったより確率が低いのかもしれません。


3文字目が漢字でないものだけを選んで統計を取れば、
もう少し意味のあるデータになるかも。
Posted by おおおかとしひこ at 2025年02月11日 16:36
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック