900連接のデータ×各配列のデータを使い、
岡さんが何を企んでるのか、
なんとなく予想がついた。
「どのカナ配列と漢直を組み合わせるのがベストか」
みたいなことを計算的に予測できないか?
では?
以前やろうとしていたことは、
カナ配列と漢直の打鍵列が混じったものから、
確率的に高い、
カナ漢字混じり文を復元して出力しようとしてたはず。
任意のカナ配列、任意の漢直を選ぶとして、
その定義列空間がなるべく遠いと、
変換精度が高いのはわかる。
じゃあ、
その変換精度が十分に高くなったとして、
最も効率の良い、
カナ配列と漢直の組み合わせはなにかを、
計算的に予測できないか?
を、
やろうとしてるんじゃないか、
という予測。
漢直は、
全部の漢字を覚えてから使うには、
あまりにも沢山の文字がある。
だから、
混ぜ書き変換なるもので、
わかる漢字は書き、
わからないのは従来のカナ漢字変換で、
対応していく原理のはず。
このとき、
「あるカナ配列をマスターしてる状態から始めて、
徐々に漢直を混ぜていくとしたら、
最終的にどの漢直コードが合理か?」
を計算できるなー、
などと妄想した。
どれくらい差が出るかは不明だけど、
すでに長文は収集済みのはずなので、
この文をこの配列で打つとしたら、
は計算できるはずだ。
プログラミング的にはとても手間がかかりそうだけど。
予想なので違ってるかもだが、
これはこれで見てみたい。笑
2023年11月14日
この記事へのコメント
コメントを書く
この記事へのトラックバック