2026年05月27日

【薙刀式】つなぎの語とn-gram

3gram(モーラ単位)統計まで取ると、
つなぎの語っぽいものが出てくるという話。
たしかに2gramよりそれっぽい。
https://x.com/ditto_fe/status/2059480832562343955?s=20


「つなぎの語」というのは、
「話題の語」、つまりその文章の話題によって変わりえるもの、
たとえば名詞や形容詞や副詞や動詞のことだ。

これらを助詞や助動詞でつないで文はつくられる。
どんな文章であれこれらは同じものを使うので、
それらを重視するべき、
というのが基本思想だ。

で、「つなぎの語」はほかにも、
接続詞、間投詞、代名詞、活用語尾なども含めてしまえ、
というまるっと入れたものを言う。
さらに定型句もね。
「ということで、」なんかはもうこれが1個として、
文字通り前と後ろをつなぐときに使われる。

そして日本語は膠着語なので、
こんなものが次々にくっついて意味を作っていく。

たとえば「られ」を例にして、
つなぎの語を空白で区切ると、こんなぐらいを考えている。

られ た
られ て
られ ない
られ て いる
られ て いた
られ なかった
られ まくる
られ て いる のだが
られ ました
られ ています
られ ています が そう でもない
られ ました にも かかわらず
られ た とはいえ
られ なかった のに こっちは、
……

といくらでもキリがない。
何通りとも数えられないし、
何gramの統計を取ればいいのかもよくわからない構造だ。

こんなのをスムーズにつなげるように、
アルペジオやら左右交互やら連続シフトやらを駆使して、
なるべく外ロール、中央指を8割使って、
というのが薙刀式の設計方針だね。

つまり思考とは、
話題の語を、こうやってつなぎの語で、
ペタペタとくっつけて意味を作ることだ、
のように定義してるわけだ。

格構造を持つ英語などでは、
これらを機能語などというらしく、
be動詞や関係代名詞や前置詞などがそうだろう。

ただ日本語の特殊なところは、
こうした機能語同士が連結して、
どんどん文を伸ばしていけることだろうね。

それで大きな文意に対して、
ニュアンスをつけていけるのが、
日本語の特徴だと思う。


だからそれらを繋ぎやすくしようぜ、
という薙刀式の発想は、
至極当然といえば当然だ。

なぜこんな発想が言われてみれば当たり前なのに、
薙刀式以前にはなかったのか
(飛鳥配列にその萌芽を見ることはできる)を考えると、
それが数理的手法、
たとえばn-gram統計みたいなものに、
馴染まなかったからといえるかな。

そもそもこのn-gram統計手法は、
英語圏で、単語間にスペースのある言語の、
戦争字の暗号解読や、
失われた言語の古文書解読に、
使われた手法だ。
ある種の傾向分析には役立つけれど、
構造から考える手法ではないと思う。

そして膠着パーツで意味を繋いでいく独特の言語には、
解析する為の独特の数理モデルが、
本来作られるべきだったのだろう。

IMEとかやってる人は、
多分もっと奥深くに入ってそうなんだけど、
そもそも国文法が、
英語文法を見ながら作られたものだから、
国語の実態と合ってないところもたくさんあるよね。

有名な「象は鼻が長いの主語は何か?」
という問いだ。
橋本文法というのを使えばこれが明快に説明できる、
というゆる言語ラジオは過去に引用した。


つまり僕らは、
日本語をうまく解析して、
数理化する妥当なモデルをまだ持ってないまである?
だってIMEはまだうまく変換できないしなー。

新配列の試みは、
一向に進化せずに、
マシンパワーとAIで片付けようとする現状のIMEに、
昔ながらの知恵と工夫で立ち向かう方法論だよね。


まあ、なんらかの新しい方法論ができたら、
おもろいなーと思いながらこの世界にいる感じかな。

だって、まだまだデジタル日本語には文句があるからね。
1日に何回かは、おーまーえーはーあーほーかー、
とのこぎりで演奏したくなる。



「つなぎの語」と、
形のなかったその感覚に、
ネーミングして固定した薙刀式はすごい。(自画自賛)
これを手がかりに、何か設計理論が進むかもしれない。
posted by おおおかとしひこ at 15:30| Comment(0) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック