2023年08月25日

【薙刀式】何が誤変換か

漢直を考えるうえで、
カナ漢字変換のシステムの欠点、誤変換を考える。

とはいえ詳しい仕組みは僕は知らないので、
どういう誤変換のケースがあるかを自分のケースで収集してみた。


以下のようなパターンがあることが分った。
1 漢字一文字や熟語の同音異義(名詞や語頭)
2 形容詞の同音意義
3 動詞の同音異義
4 発音が同じだが品詞や使い方が違う
5 ひらがなにするか漢字にするか

1〜3はまあ同音異義の誤変換としてわかりやすい例だけど、
実のところ迷惑なのは45かなと思った。
具体例を。

1 漢字一文字や熟語の同音異義(名詞や語頭)

以上 異常
意外 以外
確率 確立
光景 後継
検討 見当
一意 一位
完結 簡潔
状態 上体
初動 書道
敵 的
分 文
版 番 判
意図 糸

2 形容詞の同音意義

速い 早い
速く 早く

3 動詞の同音異義

離す 話す
打つ 撃つ
押す 推す
吹く 拭く 噴く
詰める 積める
書ける 描ける 欠ける 駆ける 賭ける ×
撮る 取る

4 発音が同じだが品詞や使い方が違う

感じ 漢字
ごく 語句
か  化
道 未知 満ち

5 ひらがなにするか漢字にするか

おもしろい 面白い
よい 良い
いう 言う


残念ながら現在のカナ漢字変換システムは、
変換した部分しか見ていないため、
全体の文脈からしてこっちが妥当な変換だろう、
という予測をしない。あくまで点での変換だ。

だから、「蛙化現象」という言葉について話していても、
急に「帰るか」なんて変換をする。
なんでやねん。家の話してないやろ。
人の話を聞けや。

ライブ変換だとどうなるんだろう。
手元にMacがないため確認できないが、
こうした全体を読んで、
あり得る変換を優先する機構があるとは思えないので、
多分出来ないだろうなあと思う。


日本語には縁語という考え方がある。
ある言葉とある言葉はペアで使われやすい、
というものだ。

家と帰るは縁語だろうね。
だから家の話をしているとき、
「かえる」は「帰る」が一番候補になりやすい。
(「買える」かもだけど)

こうした縁語リストをつくっておいて、
ある変換が確定したときに、
それらが第一候補に出やすいように優先順位を動的に動かす、
のようなアルゴリズムならば、
ある話をしているときに頓珍漢な変換結果を出すことが、
なくなるような気がする。

ただ、その縁語のリストを動的に変更するか、
変えない初期のリストをつくるかは、
なかなか難しいところがあるだろうね。
でも実用的な変換に使えそうではあるがねえ。

(現在MS-IMEは中国が仕切っているらしいから、
日本のチームが手出しをできない、という話は聞いた。
じゃあGoogleさんでもATOKさんでも、
このアイデアは使っていいですよ)

動画の話をしているときは、
ほぼ「撮る」が第一候補に出るべきだろう。
「取る」は第二候補に下がるのでは。
汚れの話をしているときは、
「拭く」が第一候補に出るべきで、
「吹く」「噴く」「服」は下げるべきだ。
服の汚れの話ならば「服」が第一候補か。

人間的には「今〇〇の話だな」という把握の仕方だけど、
機械的には過去に行われた変換結果から、
縁語をアクティブにするだけで済むかもしれない。


ただ、それをやったとしてもなお、
「感じ」と「漢字」をわけることは難しいかもしれない。
漢字の話をしているときに、
「そういうかんじが」が、
どっちかを判定する方法はないだろうなあ。

少なくとも、
僕がキーボードの話をするときには、
「打つ」が第一候補だろうに。
「撃つ」がなぜ毎回第一候補になるのかまったく意味不明。
僕は銃を撃つ話をしたことがないはずなのに。

「押す」「推す」の区別は、
最近分化したものだろう。
昔の縁語にはなかった言葉だろうね。

数学の話や論理的な話をしているときの「いちい」は、
確実に「一意」だ。「一位」の話はたぶんしない。


こんな風な実用縁語テーブルはつくれるのだろうか。
日本人で変換をつくっている所は、
もうジャストシステムしかないのかねえ。
一緒にやりませんか。



さて、
縁語では割り切れない誤変換ってあるのかな。
もう少し収集しないとわからないかもだ。


漢直を使いたい目的は、
誤変換をなくして、一意に漢字を出したいことに限る。
頻度が多いから出したいのではない。
(すくなくとも頻度の多い漢字のカナの運指は、
薙刀式ならかなりいい指の流れになっているので)

漢直をマスターする手間と、
しなくても誤変換が防げる仕組みのふたつを天秤にかけたら、
後者ができれば漢直はいらない説もある。


僕は漢字を直接打ちたいのか、
誤変換をなくしたいのか、どっちだろう。
目的と手段を混同するべきではないが……
posted by おおおかとしひこ at 12:16| Comment(10) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
最新のATOKは蛇化現象も辞書登録していますね。

用例辞書を搭載して意味解析を行い、「AI変換」の本格的な幕開けとなったATOK8が登場したのは、1993年のことでした。ここからATOK/一太郎の独走が始まっていくんですが、我が世の春を謳歌したのも束の間、Windows化という時代の波に乗り遅れて失速してしまったのは、「日本語入力の歴史」の大きな分岐点であったと存じます。

用例辞書を積んだ「AI変換」はその後、VJE-DeltaやWX3/WXGシリーズ、皆大好きMS-IMEにも搭載されて、辞書ツールから単語登録のみならず用例登録ができたりもしましたが、けっこう難しくて私も使いこなした記憶がありませぬ。現在のMicrosoft IMEには用例辞書とか用例登録なんて項目は見当たりませんから、日本語入力エンジンとしては退化したと言うべきでしょうね。

上から目線も結構ですが、ATOKはとうに遥かその先に行っています。https://atok.com/?rel=pas
Posted by 141F at 2023年08月25日 23:34
>141Fさん

ATOKは広告がとても下手で、みなさんのいうほど良いものか、
判断しづらいです。

「辞書をアップデートしました」
と言われた以下のリストを見ても、
https://atok.com/partner/improvements.html
「知らなかった言葉を一対一で記憶した」
ようにしか見えず、
ある言葉と縁の深い対応をネットワーク的に記憶している、
ような説明は見当たらないので不安になります。
「ネタバレ厳禁」は今回覚えたとしても、
「犯人の正体は厳禁」を変換してくれるかまで、
僕には判断がつかない。

ATOKの辞書がなぜ優れているか、
ただ沢山一対一対応の登録があるからだ、
のようにしかプレゼンできてないため、
それに8000円/年は高すぎるなあと思ってしまいます。
ちなみに広辞苑が9000円、ネットでも引ける。
無料で使えるものと、
何が違うのかもうちょっとプッシュしてほしい…
買い切り自動アプデで2万くらいなら払えるけど、
3年で2.4万は高いかなー。

https://atok.com/windows/
を見る限り、縁語は変換範囲のみに見えますね。
一文範囲より拡張してほしいものだ…

MS-IMEと直接対決した動画とかないかなーと探してもないので、
具体的優位点がいまいち使ったことない人に伝わらんです…
単純に普通の文章を書いてる15分くらいの作業動画ないかなー…
それでオッと思えるところだけ抜き出してみたい。
おそらくIMEの優劣がわかるのって数分に一回とかのはずなので、
一時間くらい作業動画撮って10箇所くらいだと思うんです。
そういう実戦的な箇所が見たいなあ。
Posted by おおおかとしひこ at 2023年08月26日 06:00
「IMEは確定後の文章に勝手に触れないので、変換精度を少しでも高めるためには細切れに確定しないで、確定作業も含めて全部IMEに任せた方がいい」というのはAI変換が出てきた当初のTIPSですが、今でも有効かどうかは分かりません。

用例辞書も備えたATOKといえども、完璧に変換できるかといえば、現実はそんなに甘くありません。ただまあ、ユーザーが誤変換によるストレスを感じるか否かの閾値を下げるためのたゆまぬ努力が、2023年の今日でも続けられているという事実は、称えられて然るべきと存じます。

言うまでもありませんが、努力には負担が必ず伴います。果実の甘さが負担に見合うかどうか、他人の感想(動画)を眺めるよりも、30日無料体験プログラムで自らの肌感覚で味わう方がよくね?と思いますが、違いますかね。

かくいう私はATOK7とATOK2012、2つのATOKで身銭を切りましたが、どちらもキーカスタマイズでちゃぶ台をひっくり返してしまったので、ATOKには縁がないと諦めています。
Posted by 141F at 2023年08月27日 02:47
>141Fさん

キーカスタマイズの希望を出したら通るのかしら。

ずっとやり続けてるのは尊敬に値しますが、
何が良いのかうまく言えてないので、
自分のところの良さを把握してないのでは、
という不審を抱いてしまいますね。

無料体験版は、もう少し周辺を調べてみないとです。
30日で調べられる内容を整理しないと、
時間が足りるのかもわからないので。
基本的な変換機能以外のものが多すぎて九龍城みたいになってるので、
全貌を把握したいんですよね。
Posted by おおおかとしひこ at 2023年08月27日 08:03
> 漢直を使いたい目的は、誤変換をなくして、一意に漢字を出したいことに限る。頻度が多いから出したいのではない。

という訳で (どういう訳だ?) SKK の辞書から同音異義語を disambiguate するための (することができる) 漢字の sorted top 100 を出してみました。用言/活用への対応など、まだまだ考慮することはありますが、まずはここから中心的な漢字を入力するためのストローク表を考えてみようかと思います。
https://github.com/kirameister/aki_code/blob/development/development_log.md#2023-08-27
Posted by Akira K. at 2023年08月28日 04:56
>Akira K.さん

「生」はもっとも読み仮名のパターンが多い漢字だから納得ですが、
「死」がランクインしてるのはよくわからんですね。
「し」という読みをする漢字が多いということかしら。
(「子」とか入ってるし)
辞書では音読み訓読みの区別はつけてるのかしら。
とくにSKKだと訓読みなら送り仮名で一意に決まりそうなので、
同音異義だと音読みのほうに厄介がありそうな…
Posted by おおおかとしひこ at 2023年08月28日 07:28
> 「死」がランクインしてるのはよくわからんですね。

少し冗長ですが、こんな感じですね:
==
'いし /石/医師/意思/意志/遺志/遺址/縊死/遺子/'
'いっし /一矢/一子/一指/一死/一糸/逸史/'
'えし /壊死/画師/絵師/'
'おうし /牡牛/横死/雄牛/黄紙/'
'かいし /開始/海士/怪死/界紙/懐紙/'
'かくし /各氏/各紙/各誌/客死/核子/隠し/'
'かし /菓子/歌詞/橿/樫/可視/貸し/仮死/華氏/下肢/河岸/瑕疵/下賜/花糸/'
'がし /餓死/賀詞/'
'きし /岸/騎士/棋士/貴紙/貴誌/愧死/'
'きょうし /教師/狂死/狂詩/教旨/'
'ぎし /技師/義肢/義姉/義歯/義士/擬死/'
'けいし /軽視/罫紙/警視/刑死/継子/継嗣/'
'けっし /決死/傑士/'
'こし /腰/虎視/枯死/輿/古紙/古史/越/'
'しいん /子音/試飲/死因/私印/'
'しかい /司会/視界/市会/死海/斯界/四海/'
'しかく /資格/視覚/四角/刺客/死角/視角/■/□/'
'しがい /市外/死骸/市街/屍骸/'
'しき /色/式/識/織/敷/指揮/四季/死期/士気/始期/志木/志気/鋪/磯城/子規/私記/紙器/拭/'
'しきゅう /至急/支給/子宮/四球/死球/'
'しけい /死刑/私刑/紙型/'
'しこつ /死骨/肢骨/指骨/趾骨/歯骨/篩骨/'
'しざい /資材/私財/死罪/資財/'
'しし /宍/獅子/四肢/死屍/肉/志士/子思/史詩/嗣子/'
'ししゃ /支社/死者/試写/使者/試射/'
'ししゅ /死守/旨趣/詩趣/'
'ししゅう /詩集/刺繍/死臭/屍臭/四周/'
'ししょう /支障/師匠/刺傷/死傷/視床/四生/私娼/指掌/師承/'
'しじ /指示/支持/私事/師事/榻/指事/指似/死児/'
'しせい /姿勢/四声/至誠/市制/市政/施政/私製/市勢/市井/私生/刺青/雌性/死生/氏姓/詩聖/資性/'
'しせん /視線/支線/死線/四川/私撰/私選/脂腺/詩仙/'
'しぜんし /自然死/自然史/'
'しそう /思想/試走/使嗾/志操/死相/歯槽/詩想/'
'しぞう /死蔵/私蔵/'
'したい /死体/姿態/肢体/屍体/詩体/'
'しち /質/七/死地/'
'しちゅう /市中/支柱/死中/'
'しとう /死闘/至当/私党/私闘/紫藤/'
'しにん /死人/視認/'
'しはん /市販/師範/四半/紫斑/死斑/私版/'
'しば /芝/柴/司馬/死馬/斯波/'
'しひょう /指標/死票/'
'しぶつ /私物/死物/'
'しぶん /詩文/死文/士分/四分/'
'しべつ /士別/死別/'
'しほう /四方/司法/至宝/死法/私法/'
'しぼう /脂肪/死亡/志望/子房/'
'しめい /氏名/指名/使命/指命/死命/'
'しょうし /笑止/焼死/証紙/少子/小史/抄紙/将士/硝子/賞詞/賞賜/'
'しりょう /資料/試料/史料/思量/死霊/飼料/思料/'
'しりょく /視力/死力/資力/'
'じゅんし /巡視/殉死/荀子/'
'じょうし /上司/上梓/城址/城市/上肢/情死/上使/'
'せいし /正視/精子/静止/制止/正史/生死/製紙/姓氏/製糸/西施/誓紙/誓詞/正使/勢至/静思/整枝/'
'せんし /戦士/先史/戦死/穿刺/戦史/擅恣/先師/'
'そくし /即死/足趾/'
'ちし /致死/致仕/智歯/地誌/地史/'
'ついし /追試/墜死/'
'とうし /投資/透視/凍死/闘士/闘志/唐詩/唐紙/'
'とし /年/歳/都市/徒死/'
'のうし /脳死/直衣/野牛/'
'ひっし /必死/必至/筆紙/'
'ひんし /品詞/瀕死/'
'ふし /節/不死/父子/'
'ふじみ /富士見/不死身/'
'へいし /兵士/瓶子/平氏/閉止/斃死/'
'むし /無視/虫/無死/無私/蒸し/'
'もんし /悶死/門歯/'
'ようし /用紙/容姿/要旨/養子/陽子/洋紙/夭死/羊歯/羊脂/'
'れきし /歴史/轢死/'
==

> 辞書では音読み訓読みの区別はつけてるのかしら。

上の結果でわかるかも知れませんが、区別はつけていないですね。とは言え、上記のような表示結果に (あまり書かない/使わないような表現が出てくることを除けば) そこまで大きな問題は感じないので、まずはこれをベースに進めてみようと考えた次第です。
Posted by Akira K. at 2023年08月28日 07:39
>Akira K.さん

死守や死角くらいかなー、自分が使うのは。
「○死」と死に方違いが多くておもしろい。

辞書的に網羅することと、使うことには結構差がありそうですね。
まあ手に負える有限個なら調整できるか…
Posted by おおおかとしひこ at 2023年08月28日 07:44
> 辞書的に網羅することと、使うことには結構差がありそうですね。

もっと言うと「個人差も相当ある」と考えているのですが、それを言い出すと前に進めないので、なんらかの取っ掛かりが必要だったのです。SKK 辞書よりもより網羅的なものがあればそちらを使っても良いのかも知れませんが、これは最終的に「ある程度納得できれば良い類の問題かな」と。
Posted by Akira K. at 2023年08月28日 08:01
>Akira K.さん

たしかに。

機械的な辞書って複雑なんだなー、
というのが今回少し内部を見た感想ですねー。
人間の使う形ではないのはわかるけど。

ここからうまく切り分けられるのか、
たのしみです。
Posted by おおおかとしひこ at 2023年08月28日 08:14
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック