2022年09月26日

【薙刀式】カナの頻度を品詞別に集計した話

が非常に興味深かったので。
https://love-neniwe.netlify.app/memo/kana-hinshi.htm

「カナにはなんとなく役割がある」
という直感はおそらく正しくて、
正確にいうと、
あるカナにはこのような使われ方、このような使われ方…
がある、
のような、代表的ないくつかの重ね合わせではないか、
と僕はなんとなく考えている。


とくに「い」は一位の頻度カナであるが、
多分たくさんの役割があるんじゃないかなあ。
「ん」「う」も、たくさんの役割が重なり合ってる気がする。

一方、
最もマイナーな「ぬ」は否定形でしか文法的には出てこず、
特定の言葉、
「ぬすむ」「ぬく」「ぬま」「きぬ」「ぬるい」
などでしか出てこない、
限定的な役割しかないカナだろう。

あるいは、「ー」は、カナだとして、
カタカナ語では最頻出だが、
全統計ではかなりのマイナーカナだ。
「あー」などの感嘆語としての使い方以外は、
ほぼほぼ外来語の音写でしかない役割だろうね。

マイナーめのカナだったら、
簡単に腑分けできるかな。
今懸案の「せ」「つ」「さ」あたりとか。



しかしエンジニアというのは、
目的別に言語を使い分けていてすげえな。
絵描きが絵筆や絵の具を取っ替え引っ替えしながら、
どんどん進めていくようなイメージかしら。

僕はこれまで、
プログラミング言語というのはなんらかの言語的なものだと思っていたが、
きっと言語(意味を伝えるためのルール)ではなくて、
便利な関数集、つまりライブラリこそが、
(使う人にとっての)プログラミング言語の正体なのでは?
と理解できたような気がする。

ifとかポインタとかの文法はどうでもよくて、
「こういうことをやりたいなら、
こういう関数とこういう関数が揃ってるやつ」
という風に言語を捉えると、
単なる論理パーツ集、道具集と捉えられそうだ。



で、本題。

最後の統計結果が興味深かった。


「形容詞、動詞、助詞、助動詞、副詞、連体詞、接続詞、接頭詞をひとくくりにして集計」
というのは、
つまりは「名詞以外」ということなのかな。

僕は、
名詞や形容詞語幹、形容動詞語幹などを話題の語と呼び、
これは文章によって左右されてしまうから無視することにして、
残りの助詞助動詞やら接尾語やら接続詞やら活用部分を、
繋ぎの語と呼び、
これが膠着語である日本語の文法のキモではないか、
などと考えている。

ざっくりいうと、
話題の語ABC…を、
繋ぎの語○で、
A○○B○C○○○…
のようにしたものが日本語ではないか?
ということだ。

ABC…はその文章内容によって左右されるが、
○の接着剤部分は、
どんな文章でもよく使われるはずで、
そこをするりと打てる配列が、
合理的なのでは?
と考えたのが薙刀式に結実している。

(タイプウェルのお題はどちらかというとABC…のタイプの話題の語が多いため、
少なくともタイプウェルでは薙刀式のいいところが真逆に潰されている)


で、そのトップ10が面白くて、
僕のいう繋ぎの語で占められていたのだ。

()を同時打鍵とすると、

であ (EJ)J…左から右
ある JI…右アルペジオ
して RE…左アルペジオ
ない MK…右アルペジオ
いう KL…右アルペジオ
する OI…右アルペジオ
って GE…左アルペジオ
そう BL…左から右
とい DK…左から右
った GN…左から右

って、
薙刀式を使ってて、
とても使いやすい指の流れじゃん、
って思ったんだよね。

ほとんどはアルペジオだし、
左右にしてもより高速な左→右だし、
しかもシフトカナが一個もなくて全部単打だ。
「そ」は全体の頻度だけ見るとシフトに落としていいカナだけど、
それ、そう、そこ、などの指示代名詞を即打てるように、
単打カナになっている。

(一個だけJと同時があるが、
この同時押しは右人差し指を用いるから、
もっとも簡単で楽な部類だ)

さらにいうと、
「す」「う」を除いてすべて人差し指中指だ。


ふむ、これは薙刀式の特徴が、
かなり炙り出されたのではないかな。



動詞の活用語尾とか、
形容詞形容動詞、助動詞の活用語尾だけ抜き出せないものかしら。
そしたら大体右手のカナになるような気がするが。

ちなみに助詞はかなりの確率で左手なので
(「てにをはが全部左中指」というのは、
この記事の指摘で初めて気付いた。
そうだったんか…)、
左で繋いで右で止め、
という薙刀の武術理論にのっとってるんだよね。

あるカナはひとつだけの役割ではなくて、
複数の役割で借り出されている気がする。
これらをうまいこと抽出できると、
おもしろいだろうなあ。



しかし「繋ぎの語」を、
うまく品詞分解しさえすれば、
この記事の仕組みで統計が取れるということか。
日本語文法そこまで詳しくないから、
余計「繋ぎの語」を定義することが難しい…

あと、
和語、漢語、外来語を、
それぞれ統計取れるんだろうか。
そういう辞書がないと無理なのかしら。
そしたらまた全然違う結果になりそう。
posted by おおおかとしひこ at 10:38| Comment(2) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
取り上げていただきありがとうございます。

そういえば、キー配列と似た感じで「よくある処理が簡単に書ける」みたいなことは言語の人気に関係していると思います。

> つまりは「名詞以外」ということなのかな。

自分も「名詞以外」のつもりでしたが、こまかくいうとIPA品詞体系というやつだとこのほかに感動詞、記号、フィラーというのもあるようです。
形容詞語幹、形容動詞語幹やその活用形というような情報も、形態素解析の細かい品詞情報から得られるようですが、自分自身の日本語文法の知識不足がボトルネックです。

> 和語、漢語、外来語を、
> それぞれ統計取れるんだろうか。

ちょっと調べてみたところ、語種辞書『かたりぐさ』というものがあるようです。

https://csd.ninjal.ac.jp/lrc/index.php?%B8%EC%BC%EF%BC%AD%BD%F1%A1%D8%A4%AB%A4%BF%A4%EA%A4%B0%A4%B5%A1%D9/%CD%F8%CD%D1%CE%E3
Posted by ラブねにゑ at 2022年09月27日 00:16
>ラブねにゑさん

このへんの品詞分解系って、
どの学説に基づいてるのか分からないのが厄介ですね。
日本語の文法は一つに定まってるわけでなく、
いくつかの学説が入り乱れてて、
細かいところは異論がある状態のようですね。
「像は鼻が長い」の主語は何か、
で答えが定まってないし。

この品詞分解形式は、
○○の○○に基づく、
なんて明記されてるわけでもないからなあ…

ほんとは国語学者がその品詞分解プログラムを書いて、
もっとも合理的な分解ができる、
この解釈でいく、
みたいなところまで突き詰められてればなあ…

和語、漢語、外来語のバランスは、
なかなか統計が取りづらいだろうけど、
結果を見たいやつのひとつです。
「ダブる」を外来語とするかどうかは微妙ラインだな…
和語でも漢語でもないのは確かなのだが…
Posted by おおおかとしひこ at 2022年09月27日 00:51
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック