2022年09月19日

【薙刀式】品詞ごとのカナ頻度

分節単位やら品詞単位やらでのカナ頻度を知りたいが、
機械分析では原理上難しいのでは(よほどちゃんとした辞書があり、
逆変換をうまくかけられなければ無理そう)、
などと思っていたのだが、
ラブねにゑさんが自身の2万字をサンプルに例を出していたので。
https://twitter.com/love_nenie/status/1571311910775291905?s=20&t=9qVzMnwiYmrg7FfkJOjIcQ


品詞ごとにカナの種類は違うんだろうなあ、
という予想は誰でもできると思うけど、
それが数値的にも現れていて興味深い。

この分析マシンは活用形もきちんと拾うのだろうか。
それによって、
動詞、助動詞、形容詞、形容動詞は、
ずいぶんと様相が変わりそう。
あるいは複合動詞(見渡すなど)は、
どう分析するんやろ。
その辺によってだいぶ変わりそう。


とりあえず画像の計算結果を見る限り、
薙刀式の特徴がわかりやすくでている。
助詞は「の」「も」を除き全て左手なのは、
かなりの計算通りだね。
繋ぎが左手、とどめが右手、
という武術薙刀の術理に一致している。
(動詞終止形のウ段は「ぬ」を除き右手、
活用語尾も右手が多い)

さらに、
画像にあるカナは、「ろ」を除き、
薙刀式ではすべて人差し指中指、というのが興味深い。

この辺が、
薙刀式が「日本語を手で書いている」という感覚にさせるのだと思う。

他の配列だと、
同指連続を避けつつ、
なるべく違う指に振ることで負荷分散し、
ロールオーバー効率をあげようとするだろうが、
薙刀式では、
「多少同指連続があったとしても、
人差し指中指なら対応できる」と考えて、
なるべく人差し指中指を使うことを考えた。

それはつまり「中心的なカナは中心的な指で使いたい」
という、ごく当たり前の欲望なんだよね。

日本語で中心となるカナは何か、
という問いは難しいけど、
僕がピックアップしたカナが、
このリストに「ろ」を除いて全て該当する、
という結果がおもしろいなあと感じた。

もちろん全部単打ならさらにすごいけど、
そうは問屋がおろさず、
単打シフトこみでの、人差し指中指、
と厳密に書いておくことにするか。

新下駄なら単打に全部置いて運指計画をすると思われる。
(確認はしてない)

ここはトレードオフで、
単打にする代わりに薬指小指を許容するか、
人差し指中指メインにするためにシフトにするか、
という極論なんだよね。
新下駄は前者で、薙刀式は後者の両極端だと思う。



この分析はどのようなアルゴリズムになってるんだろ。
それが妥当ならばかなり面白い統計だと思う。
posted by おおおかとしひこ at 11:51| Comment(2) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
たとえば「スモモも桃も」という文をMeCabという形態素解析エンジン(とIPA辞書データ)で分解すると、

スモモ 名詞,一般,*,*,*,*,スモモ,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
桃 名詞,一般,*,*,*,*,桃,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ

のようなデータが得られます。

これらのデータから、読みと品詞情報の列だけを選んで
[スモモ,名詞] , [モ, 助詞], [モモ,名詞], [モ, 助詞]
のように「品詞付きカナ」のデータ列をつくって集計してみています。

この例だと
名詞ランキング モ 4 , ス 1
助詞ランキング モ 2
になります。
形態素解析エンジン、辞書や品詞体系によって結果は変わると思います。

2文字以上の連接の場合、カナだけでなく、品詞の連接パターンも品詞の種類の二乗だけ増えるので、悩ましいなあと思っているところです。
Posted by ラブねにゑ at 2022年09月19日 18:48
>ラブねにゑさん

なるほど解説ありがとうございます。
こりゃ本格的な腕の必要なやつだな。
データをうまく取り出すにはある程度のプログラミングの腕がいりそうだ…

薙刀式が重視してるのは、
品詞の頭ではなくて尻の部分じゃないかと予想します。
活用語尾なんかがアルペジオになるようになってるし。
句読点につながりやすいものなど、
うまく区切れて統計取れると面白そうなんだけどなあ。

イメージなんだけど、
文節単位で打つと薙刀式は結構いいスコアを出すと思うんですよね。
それがどういう数字で出るのかわからないけど。

でも単打頻度だけでも分かることが多くて、
なかなか興味深いです。
Posted by おおおかとしひこ at 2022年09月19日 23:12
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック