たぶんv16がこれで確定しそうなので、
少し別のことを考え始めた。
漢直のことをまた考えている。
熟語単位のデータってなかったけ。
1gram漢字の頻度ならば、新聞などのデータがある。
二字熟語に限った2gramのデータ、
三字熟語に限った3gramのデータ、
四字熟語に限った4gramのデータ、はないものだろうか……
(五字以降はどう考えても複合熟語だろう)
ちょっと探してもなかったので、
だいぶ本気で探さないとなさそう。
探した中で面白かったもの。
高校入試でよく出てくる二字熟語
思考 救助 減少 増加 停止 絵画 河川 強弱 寒暖 苦楽
高低 損得 左右 縦横 男女 国営 骨折 人造 日照 雷鳴
円高 頭痛 帰国 着席 登山 読書 作文 納税 暗示 仮定
再会 最高 新年 温泉 黒板 海底 光線 不正 未開 無礼
非凡 否定 未知 不明 山々 堂々 広々 黙々 続々 高々
種々 諸島 第一 貴社 自然 適性 赤字 光陰 星霜 白眉
特急 入試 高校 中学 農協 国連
就職試験でよく使われるSPIで頻出する二字熟語
(書き取りはかなりレベルが高いので、おそらく読みの試験だろう)
瓦解 言質 不憫 沿革 断腸 雄飛 罷免 席捲 顧慮 釈然
透徹 鳥瞰 斯界 逓減 老練 督励 跳梁 耽読 暁通 猜疑
趨勢 佳境 獰悪 敷衍 至言 伝播 漸進 崇高 脆弱 披瀝
再三 桎梏 英知 垂涎 僭越 狼狽 金言 英断 焦眉 気鋭
伍する 迎合 吹聴 殊勝 粉飾 進言 軋轢 詭弁 会得 符合
流布 躍如 至言 委細 謬見 狡猾 公算 看破 卑近 困憊
尊大 憐憫 営々 胆勇 比肩 出色 泰然 腐心 斡旋 雌伏
回顧 安泰 恭順 呵責 杞憂 傀儡 甘受 機知 漸次 懐柔
義憤 奸知 進取 闊達 啓蒙 新鋭 孤児 奔流
自分がどれくらいのものが欲しいのか?
を考えるときに、
言葉の難易度というか、
どういうものがどういう分布になっているのかのイメージが欲しくなった。
今のところ考えているのは、450字登録したパターン。
これなら覚えられて運用も出来るだろうと。
小学校で習う漢字が1026なので、その半分となると、
漢字変換ですぐ出せそうなものや、
簡単すぎる漢字はいれなくてよい、
という感覚になってくる。
薙刀式と併用する前提で考えると、
やっぱ同音異義を漢直で打ち分けたくなるので、
同音異義の多い熟語とかを調べたくなる。
どうやって調べようか。
(一覧は見つけたが頻度順ではなかった)
2025年02月04日
この記事へのトラックバック
形態素解析辞書の ipadic に登録のある名詞で漢字の2〜4文字のやつを抽出して、Wikipedia で頻度を求める、ということであれば出来そうです。
あるいは、大岡さんが公開された脚本や小説のデータで頻度を計算することも出来るかと思います。
とりあえずみんなが役に立ちそう、という点ではwikiがいいんじゃないですかね。
物語文は固有名詞を除かないと、やたら「小林」が多い、とかになるので、
登場人物一覧をつくる必要があるため面倒そう。
あとジャンルの偏りもあります。
犯人、警察、逮捕が多いとか、告白、誕生日、好意が多いとか。
その辺の前フィルタを必要としないのは、
wikiかなーと。
予想一位: 日本か人物あたり
https://cs.mkamimura.com/posts/2024/09/k-code%E8%A1%A8-%E8%A8%AD%E8%A8%88%E6%80%9D%E6%83%B3%E3%83%BB%E8%A8%AD%E8%A8%88%E6%96%B9%E6%B3%95-%E5%88%A9%E7%94%A8%E3%81%97%E3%81%9F%E3%83%87%E3%83%BC%E3%82%BF.html
(2打鍵の漢字をを眺めてみてもしなんか参考になることでもあれば。)
情報ありがとうございます。
リンクされたwikiの専門用語が一つもわからんので、
(まずダンプってなに、から)
わかる人が漢字連続部の頻度データを整えることを期待します…
既存のデータを漢字でフィルタリングすれば簡単にすぐ分かりそうだから、気が向いたら調べてみようと思います!
(簡単なのに、簡単だからこそなかなかやってみようと気が向かないという矛盾…)
スクリプト書ける人ならすぐだろうと思ったので、
できる人任せた!のつもりで書いた記事です。笑
何を考えているかというと、
「熟語をアルペジオで打ちたい」ってことです。
今考えているのは、
たとえば「SDFを押しながら右手1打」で一漢字のシステムです。
なので、JIにたとえば「日本」と入れられるでしょ、
ということです。
カナ配列の設計でやるところの、
「連接をアルペジオに仕込んだ」漢直がつくれるのでは、
と思っていて、
その基礎データが欲しいんですよねえ。
設計に連結しか必要なかったから、二字熟語ではない、三字熟語の一部とか、単なる漢字の連続も含まれてるかも。
(3-gramのデータはなかったです。m(_ _)m)
おつかれさまです。
うーん、100じゃ漢字同士の関係性まで炙り出せないのかー。
これが別のソースだとまた全然変わりそうですね。
眺めて関係性さぐるには100位までが適度で十分で、それ以上だと眺める気がなくなると思って100位までにしましたが、もし200位、500位、1000位、それ以上でも眺めて見たいなら、すぐに用意できますよ。
さすがに10000位とかまでだと
>別のソース
(データ)を元にした2-gramを眺めた方がいいかも。
100^2のオーダーがないと無理だなーと眺めてたので、
線形倍程度ではネットワーク的にならなそうだと思ってました。
でも1万を見るのもつらそう…
(常用漢字2000として2000^2=400万よりは少ない)
とはいえ、
自分のボキャブラリーを前測定したときは6万語くらいだったから、
少ないっちゃあ少ない。
単漢字の新聞頻度を見てると、
数百では全然足りないので、
我々日本人はたくさん漢字を扱ってるんだなーと思います。
もしよろしければどこかにあげていただくと、見に行くかもです。
https://cs.mkamimura.com/posts/2025/02/%E6%BC%A2%E5%AD%97%E3%81%AE2-gram%E3%81%AE%E9%A0%BB%E5%BA%A6%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8%E3%81%9D%E3%81%AE%E5%8F%AF%E8%A6%96%E5%8C%96%EF%BC%88%E7%B7%9A%E5%BD%A2-%E5%AF%BE%E6%95%B0%E3%81%AE%E3%82%B0%E3%83%A9%E3%83%95%EF%BC%89.html
もし気が向いて、見にきて、さらに何か参考になることでも見つかれば。
(たいして参考になることが見つからないかもしれませんが…w)
おつかれさまです。
意外だったのは、
10000位くらいともなると、
二字熟語がほとんど出現せず、
もっと多くの文字の熟語(複合語)の一部と思われる部分ばかりになることです。
たとえば「二字」「熟語」は我々には理解できても、
「字熟」はほとんど意味をなさない、的な。
そして常用漢字を2000として、
その二乗の400万通りあるはずですが、
4万いかないうちに0回になることですね。
つまりあり得る空間のほんの一部を使って、
我々は言語を用いている、というのは興味深いです。
シェイクスピアの猿のパラドクス
(ランダムな文字を猿がタイピングするとして、
無限回打てばその中にシェイクスピアが含まれる)は、
思ったより確率が低いのかもしれません。
3文字目が漢字でないものだけを選んで統計を取れば、
もう少し意味のあるデータになるかも。