薙刀式は、統計よりも重視した連接がけっこうある。
それをリストアップして、
実際の統計と比較してみたい。
薙刀式で打ちやすく重視したものを、
思いつきで100ピックアップ、
重要順にソートしてみた。
(忘れてるやつがあるかもしれない)
それと、kouyさんの100万字統計での順位を比較する。
薙刀式の順位>統計順ならば、
薙刀式が統計の海から拾い上げた言葉ということだ。
それに●をつけてみる。
で、100個について比較してみると。
01 ある 38●
02 ない 07●
03 する 21●
04 いう 35●
05 あい 137●
06 あう 1960●
07 なん 173●
08 たい 17●
09 たん 194●
10 なる 209●
11 られ 221●
12 れる 148●
13 なら 285●
14 たら 261●
15 いく 235●
16 くる 487●
17 える 348●
18 やる 1761●
19 して 6
20 こと 15
21 もの 74●
22 おも 120●
23 もう 191●
24 これ 196●
25 あれ 748●
26 それ 149●
27 どれ 1593●
28 いれ 591●
29 だれ 1078●
30 なれ 1203●
31 おれ 757●
32 ょう 01
33 ゅう 05
34 ょく 100●
35 ゅく 1490●
36 いる 33
37 です 29
38 ます 25
39 から 22
40 まで 236●
41 は、 27
42 で、 98●
43 と、 202●
44 の、 1392●
45 も、 241●
46 を、 1326●
47 す。 19
48 だ。 216●
49 い。 71●
50 にも 267●
51 ので 60●
52 なに 356●
53 には 66●
54 にて 949●
55 とは 129●
56 した 14
57 った 11
58 って 04
59 っと 116●
60 では 86●
61 いん 73●
62 しん 39
63 かん 12
64 てん 136●
65 しい 199●
66 てい 02
67 かい 08
68 じい 2457●
69 でん 501●
70 こう 10
71 そう 56
72 どう 49
73 とき 192●
74 とこ 210●
75 ころ 203●
76 てき 54
77 じん 218●
78 はん 140●
79 ばん 280●
80 きん 184●
81 ぎん 1536●
82 あす 2965●
83 なす 1634●
84 ゅつ 527●
85 ゅん 464●
86 こん 131●
87 そん 392●
88 とん 912●
89 どん 1081●
90 にん 226●
91 けど 482●
92 ひと 78
93 だけ 234●
94 しか 152●
95 ほう 64
96 ろう 229●
97 そこ 661●
98 せい 16
99 ぜん 134●
100 わけ581●
逆に、ここまでに薙刀式で重視していない、
いわば切り捨てた統計的2gramを400位くらいまで以下に並べてみる。
こっちのほうが興味深かった。
ときどき、「よう」「た。」「る。」とか、
僕がピックアップし忘れたものがあるが、
ざっと見ると、
「文節で切れていないつながりの部分」だと想像される。
つまり普通は文節の切れ目だから、
切るところが大量に含まれている。
「うし」「とい」「いし」「んし」などなど、
それだけでは意味をなさないものもたくさんある。
しょ よう うし た。 とい いし んし る。 んの きょ
いの うに さい せん んで とう うの いた しゃ んが
とし ちょ うか だい けん んと いか んに さん が、
いて いま んか のか がい けい いと ると んだ て、
いに んじ ぶん うじ んを じゅ かく にな らい げん
はな くし 、こ であ るの なか この いっ りょ のし
のは まし のこ いで るこ いき うが され うい しま
たの うな その いが うで ほん んな うと うき きに
かっ はい うこ りま でき れて 、そ があ なっ うを
いは いさ いち おん とお さく いじ んは いい にか
いな おお きゅ ねん し、 かた とが かし でも うは
いを ざい う。 とも など たし んき にし うせ ても
きな とに とか めい んせ くな のう くに くの えん
り、 ちゅ んた うち あり 、し れた でし たか ぎょ
つか いこ うさ うす 、か だん っく ら、 すが るか
との をか きた をし うほ んこ かな んて に、 つい
。そ たと にお のじ なく つき やく たり につ いけ
じ、 こく ゆう もん とを んさ んど いせ がく なが
れば ため のだ のよ うけ 、あ とな 、お 。こ おい
とり っか もい ーる い、 たが てし あっ のた っし
のき 、と いす きの のと ませ くり もっ いだ くて
をお なし なり らな たく にあ まっ のな ん、 いよ
まえ たち うだ んす のが くを せつ しの とで れん
つの んり くら のお をつ ばい のあ にゅ ただ かわ
かの ん。 おこ んけ われ ては もし てお ひょ はつ
てく なの だっ のせ う、 かに へん しき すと のい
れい によ っこ じつ とく しな おう ゃく いも くさ
のひ おと じゃ るよ おき くせ るい また あん きる
もと 、き かり らし はじ えい くだ きま くと にた
にほ めん はし んい せき わた まい がお つよ ちゃ
うえ うも くは ちが おく くす いわ がえ きし にい
どの けっ がし がた じっ かえ より 。し りか たこ
これは、ビッグデータや統計を扱ったことのある人なら、
誰もが触れたことのある現象だ。
「統計はほとんどゴミで、
意味のある所はわずかな現象」だ。
つまりビッグデータを集めてもそのままではゴミの山で、
そこから意味ある処理をしないと使えないというやつだ。
たとえば意味のないが頻度の高い「うし」は、
牛に関する文章が多かったわけではなく、
「どうし」「うしろ」「そうして」
などの、複数の全く意味の違うがよく出るものがあった結果、
統計に上がってきているものだろう。
で、
薙刀式なる意味論的配列とは、
こうした統計のゴミの中から、
意味をなす二連接について、
意味をつくるパーツ二連接について、
ピックアップしてきたもの、
という考え方ができる。
しかも文節の切れ目を考慮しているわけだ。
この統計を元にした新下駄では、
「文節の切れ目ではないがよくつながるつながり」について、
素早く楽に打てると予想される。
(僕はそこまで新下駄をマスター出来なかったので、あくまで予想)
ここが新下駄がタイピングゲームで有利なところかもしれない。
確率論的にはね。
ただ、実際に日本語を書く時には、
やはり文節単位でなめらかにつなぎ、
文節の切れ目=思考の切れ目では、そのまま指の連接は切ると想像される。
だから新下駄で創作文を書く時は、
指にある程度余裕のある状態で書けるかも知れない。
(本気を出せばもっと速いが、
まあこれくらいで書くことにするか……フフフ……みたいな)
薙刀式のアプローチは、
そういう意味のないものは全部捨てて、
意味のあるところを重点的に良運指にしようやないかい、
ということだね。
もちろん、そのピックアップの仕方は恣意的であり、
あれが採用されてこれが採用されていない、
などの感覚の違いもあろう。
あるいは、言葉はいいが指と合わない、もあるかもだ。
それはもう人間の手でやる以上、
「その職人の作ったものが合うか合わないか」
でしかないと思う。
じゃあ、
「意味のある二連接とは」
「その統計頻度とは」
「打ちやすい二連接の順を、900種ソートする」
の議論をクリアしてから、
機械的に求めてくだされ。
それをやってる暇があったら、人の手でやったほうが早いと思うよ。
ついでに、すべて同置、機能キーの人差し指入れ込み、
編集モードなど、
すべて込み込みでやってみればいいさ。
そんなことを機械でやるよりも、
手の感覚で作った方が早いだろ、
と思ってここまできた。
これが薙刀式である。
別の人の別の感覚は、飛鳥、メジロ式に見られる。
もっと別の意味論があってもよい。
2026年04月19日
この記事へのコメント
コメントを書く
この記事へのトラックバック

