最近chat GPTを仕事で触ってるのだが、
無料版の3.5がどれくらい前の文脈を参照してるかをきいたら、
約2000トークンと答えた。
トークンの定義はいろいろあり、
この場合は、
OpenAI社の自然言語処理における「単位」だそう。
英語の場合、
単語、スペース、句読点
がひとつのトークンになるらしい。
日本語の場合、
単語、助詞、助動詞(おそらく品詞分解したときの品詞)、
句読点
がひとつのトークンになるそうだ。
ん?
となると、日本語は助詞の「の」「で」「が」
なんかの短いカナでのトークンが多いから、
同じ分量では、
日本語の方がトークンが多いのでは、
そして日本語だと処理できる長さが短いのでは、
と思い、
2000トークンが両言語でどれくらい違うかたずねてみた。
おおよそ、
2000トークンは英語で8000字、
日本語で4000字らしい。
倍も違うのか。
でも半角文字と全角文字程度の違い?
ほんとかな。
chat GPTは知ったかぶりをするからなー。
とGoogle先生で調べたら、
仮想通貨のことをトークンというんですって。へえ。
なので「トークン 自然言語処理」で調べると、
https://book.st-hakky.com/data-science/llm-token-article/
に行き着く。
まあ大体chat GPTの発言はあってる。
しかし4000字って、
このブログ2記事分だよな。
ずいぶん少ない。
小説とか無理だねえ。
最新のGPT4(有料)だと3万トークンらしいので、
6万字程度の文脈記憶力。
とはいえ小説1冊10万字なのでやや足りない。
今のところAIが小説を「把握」して、
かつ比較して論評するのは無理そうだ。
さて、
翻訳の世界では、
日本語の1文字は、英語で1.5文字くらいになると言われている。
日本語2000文字が英語3000文字くらい。
つまり、日本語のAIによる自然言語処理は、
人間の翻訳よりも手間取ってるわけだね。
しかし入力法を見ると、
英語のタイピングよりも、
日本語のタイピングのほうが遥かに手間がかかっている。
漢字変換で確定するまでを考えると、
両言語のタイプ速度の差ってどれくらいあるんだろ?
体感3〜4倍くらいありそうだな。
日本語は複雑な言語であることは理解しているつもりでも、
こうやって数字で出されるとおもしろいな。
2023年11月10日
この記事へのコメント
コメントを書く
この記事へのトラックバック