こ、これはすごい…
さっそく現れた、岡さんによるカタカナ語の頻度表。
https://gist.github.com/oktopus1959/812559dba7fa1c46c159e8c28788b3f6
見慣れたカナ連接とはかなり違うぞ???
全体的には句読点よりも頻度の低いものなんだなあということ。
そりゃそうか。そんなには出てこない。
1gramのトップ20を見てみると
(横にkouyさんの100万字統計頻度をひらがなで示す):
ー い
ン う
ル ん
ト か
イ の
ス と
ア し
ッ た
ク 、
ロ く
キ な
ド て
リ に
カ は
ラ こ
シ る
タ 。
フ が
コ で
ブ っ
ス、ア、ロ、キ、フ、ブなんて、
普通はマイナーカナ扱いだ。
だがしかしカタカナ語では変わるのか。
2gramのトップ20は:
キー ょう
イル てい
ード しょ
ック って
フト ゅう
ファイ して
シフ ない
ート かい
ール よう
ブル こう
スト った
イン かん
テー うし
ーブ した
ース こと
ット せい
モー たい
ログ じょ
ンド す。
ロー た。
これはおもしろい。全然違う。
「ード」ってなに?
ロード、ボード、モード、コード、カード、
ソードくらいしか思いつかない…
収集元にマニュアルがあるからか、
おそらく「ファイル」が沢山出てるっぽい。
6位が「ファイ」だとは全く想像もしなかった。
ファ行、まじでちゃんと考えないとなんだな。
「インストール」「ログイン」もだろう。
このへん、収集文章に左右されそう。
薙刀式で見ると、「イル」「イン」が中指縦連だが、
それ以外はおおむね悪運指には当たってなくて、
胸を撫で下ろす。
思ったより外来語が苦手ではないかもしれない。
別の言語なんだから、
音の流れもまったく違うやろ、
までは誰でもわかると思うが、
じゃあどう違うの?に関しては、
相当面白い調査だと思う。
自作配列がカタカナ語を打ちにくいか、
というチェックは意外としてないと思うんだよな。
出てこないだけにね。
僕は日本語と英語を同じアルファベット配列で打つことは、
あまり興味がない。
音の流れが違う言語なんだから、
それぞれに特化するべきと考える。
まあそれでもニコイチは便利なのはわかる。
ただこれだけ本質的に違うんだなあ、
と分かって、なかなか興味深い。
(追記)その後集計にバグが見つかり、
統計結果は更新されたそうだ。
それによると、
ー
ン
ル
ス
ト
イ
リ
ア
ラ
ッ
ク
ド
タ
ロ
レ
カ
ィ
マ
ム
プ
リー
ール
イン 縦連
スト
ラン
ター
ック
ース
ート
ング
ンド
ット
ュー 縦連
ント
ーム
ード
ライ
ディ
ーズ
ティ
レー 縦連
な感じ。
縦連と書いたものは薙刀式のもの。
多少のことはあれ、おおむね打ちやすい感じにはなっている模様。
しかし全然違うんだなあ。
なお1gramに、「ィ」や「プ」がランクインしてるのが、
独特だな。
ディ、ティ、フィあたりが多いんだろうなあ。
ここまでくると、
ひらがなのみの連接統計、
漢語のみの連接統計、
とさらに分けてもよいのでは、という気がしてくる…(他力本願
2022年11月19日
この記事へのコメント
コメントを書く
この記事へのトラックバック