2023年12月01日

【薙刀式】文脈依存漢字変換器はないのだろう…

ないものねだりを書いておく。

現在のカナ漢字変換は、
入力の範囲が「打たれた文字」だけで、
以前の変換がかかったときのインプット情報は持たず、
現在の入力文字だけでやる。

インプット情報に、前二文程度でいいから記憶しておき、
そのときの確定単語の縁語が第一候補に出るような仕組みにならないだろうか?

仮にこれを縁語変換ということにする。


現在の第一候補は、
「その単語を過去確定した候補の中で頻度の高いもの、
かつ、最近確定したもの」
が出てくると思われる。

各単語同士の連関は想定されていない。
あくまで、入力したカナと漢字の組みがペアになっているだけだ。

しかし現実の文章はそうではない。
例を挙げよう。

さっき、
「これはパズルだなあ」なんて文を書いていた。
この次に、
「これを解く」と書きたかったのに、
「これを得」と変換されてイラッと来た。

「とく」で最近確定したのが「得」だったのだろう。
僕が言いたいのは、
「とく」だけからの情報ではなく、
前文から文脈を鑑みて、
「パズルの話をしているときの『とく』は『解く』が縁語ですよね」
と、第一候補にしてほしいということだ。

同様に、
「かい」が「怪」に変換されて萎えた。
たとえば学校の怪談や、廃墟で不思議なことが起こっているわけではない。
これはパズルだな、という話のときに、
「かい」といえば「解」が第一候補に来るべきだろう。

で、出来れば段落全部とか、
数時間作業程度の記憶は欲しいのだが、
贅沢を言わないので、前二文程度の記憶は欲しいなと。
すくなくともこの段落を書いているときはパズルの話を前振っているのだから、
という記憶程度は欲しいなあと思っているが、
まあ前二文としようか。


俺は、
パズルについての文を書きたいのであり、
そのときに、お得な情報や廃墟の怪現象が出てくる確率は少ない。
逆に、パズルについての文章を書いているときに、
急にお得な買い物や廃墟の不思議現象を書きたくなったときに、
「解く」や「解」が第一候補が出てきたとしても、
「そりゃそうだよな。お前は話を聞いてたもんな」
と納得すると思う。

いや、「お得な情報全体の文章で、
たまたまパズルが出てきたんだから、
優先は得だろ」という文脈があるかもしれない。
しかし、
「前二文の縁語を優先」という明確な指針があれば、
「解く」「解」が優先第一候補として出てきても、
納得はしやすいと思う。

少なくとも、
パズルの話をして、解について考えたいときに、
怪、回、買いなどを選択してイライラするよりましというものだ。

これは、ある程度連文節変換をしていれば救われるかも知れない。
なぜなら、このイライラは単文節変換だったから。
でもスピード優先のときは、
単文節変換のほうが思考を書き付けやすいと感じている。


文章というのは、
「あるジャンル、領域」に話題を限定して、
その中についての何かを書くものだ。
パズル領域の中で急に買い物の話はしない。

縁語変換の仕様を細かく考えているわけではないが、
誰か試しに実装してみてくれないだろうか……
テスターになりますよ。

辞書選定は難しいかもしれない。
「あれが来ればこれが来るもの」という約束事は、
古びる可能性もなくもない。

猫が来れば小判が来るものだが、
小判が来るよりも今はチュールのほうが来るだろうし、
将来的にチュール以上のものが来ればチュールは廃れるかもしれない。
なので、一回定義しただけで済むのか、
それとも更新しないといけないのかは、
なんとも言えないところだ。

だけど、古典的な縁語はそんなに変わらない、
という仮定のもと、
基本的なものに対してはやってみたら面白くなるかもしれない。
僕はIMEの研究について詳しいわけではないので、
「それはやってみたんですが、失敗したんですよ、
こういう理由で」があるかどうかを、
調べる方法を知らないので、
すでにやって失敗していたらすいません。


ということで、
パズルの話をしているときに、
「解」をすぐ出してくれるといいんだが。
(今「怪」が先に出た。
前回の変換で「怪」だったからだ。
しかし直前にパズルがあるんだから「解」だろボケ、
といつも思うわけだ)

言葉というのはネットワークだ。
今のIMEは、そのネットワークを持っていない、
ただの一対一対応の辞書に過ぎない。
それは日本語文化のかなり低次元の部分だと思う。
もっと高次なことを文章でやっているのに、
ついてこないのがもどかしい。

少なくとも人間は、パズルの話になっているときに、
急に怪だとは思わずに、
解に脳内変換して聞いているものだろう。
それについてくるようになってほしい。
100%でもないにせよ。

これは変換を使うあらゆる言語に応用できるかもね。
知らんけど。

(この縁語変換が出来ないがために、
漢直に手を出すか迷っている。
縁語は数限りなくありそうなのはたしかだ)
posted by おおおかとしひこ at 20:21| Comment(4) | TrackBack(0) | カタナ式 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
それはATOKの文脈解析変換ですね。

https://docs.oracle.com/cd/E19455-01/806-2798/6jc07tbsh/index.html

ピアニストと入力されたら「奏者」
ゴール・レースと入力されたら「走者」

Google日本語入力とかにも希望を出すとよさそうですね。
Posted by Ken'ichiro Ayaki at 2023年12月01日 23:30
>Ken'ichiro Ayakiさん

へえ。ATOKちゃんとやってたんだ。
ありがとうございます。

そしてそれが周知されてないとは、
ATOK、宣伝下手すぎる!
導入を検討しようとしたページにもそんな解説がなく、
なぜこうした優位性をきちんと宣伝しないのか、
理解に苦しむ!!

ATOKが日本語の変換精度が良いといわれる、
○個の技術みたいなページが欲しい…!
Posted by おおおかとしひこ at 2023年12月02日 00:50
これが文脈解析変換に関する特許のようです。

https://patents.google.com/patent/JP2003058538A/ja?oq=%E7%89%B9%E9%96%8B2003-058538


入力される文章から、文章のテーマを特定して、
特定したテーマをかな漢字変換における変換候補の優先順位に反映させるというものです。


当該特許明細書の図5に、
「今日は晴れていたよ。」
のあとに
>明日は(雨)
が最優先候補となり、


「今日はガムをもらったよ。」
のあとに、
>明日は(飴)
が最優先候補となることが示されています。

ジャストシステムは2009年以降、かな漢字変換の特許を出願していないのですが、開発を止めてしまったのでしょうか。MS-IMEが足踏みしている状況なので、尖った機能を組み込んで頑張って欲しいものです。
Posted by Ken'ichiro Ayaki at 2023年12月04日 15:41
>Ken'ichiro Ayakiさん

特許の取得の様子から製品開発状況を知るとは、
専門家っておもしろい…

こうした一連の特許技術も含めて、
「ATOKが日本語変換に強い理由」を、
上手にまとめてくれれば、
開発資金も入るのになあ。

むかついてるOLさんとかもたくさんいるはず。
Posted by おおおかとしひこ at 2023年12月04日 16:15
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック