AIのことを語りたい。

言語生成AIと人の共生は、言語生成AIと共に学ぶこと。言語生成AIの主に人文系の学習用途を模索するblogです。

2023/4/24 23:12 この時点で気がついたことの一覧

(※追加 記事が重複してしまったのですが、両方とも、はてなスターを頂いているので、このまま公開させて下さい)

上記は、気づいたことを、まとめて述べています。また、noteの深津貴之 (fladdict)さんと、徳力基彦(tokuriki)さんの対談YouTubeアーカイブ)を視聴して、印象に残ったことも書いています。

Googleで検索するときは、Aという情報が欲しいから、Googleのインデックスの中から、Aを含むのに最適なキーワードは何かな? と、情報を絞り込む訓練を僕らは意識せずに膨大な回数経験を積んでいます。例えば、「猫」と検索するより、「シンガプーラ 起源」と「シンガプーラ 犬みたい(呼んでも来るし呼ばなくても来る、人間ウェルカムでフレンドリーな個性に関する記事が出てくる。Googleサジェストで表示されたから、一定の数で検索してるはず)」と検索した方が、目的にあった情報が見つかりますよね。(ちなみに、ChatGPTは翻訳得意なので、フランス語とヘブライ語で「シンガプーラ 犬みたい」を訳させると、Googleでフランスのドメインイスラエルドメインのコンテンツが出ました。フランス語版は、「ヨーロッパではポピュラーでは無いが、アメリカでは人気のある猫だ」みたいな記事で、イスラエル版は記事もURLもヘブライ語だけど、ページに埋め込まれたYouTube動画は英語でした。)

余談が長くなりました。

 

ChatGPTに回答させる時も(AIが機械学習をして持っている膨大なデータがあるから)、絞り込みが必要です。中立かつ一般論で回答する設計ですし。(例えば、特定の政党や宗教を、現代の政治の領域で話題にすると、「自分はChatGPTで、OpenAIのAIで、ガイドラインがあり、特定の政党などの立場での回答は控えさせていただく」と、突然、過剰反応のように思える言動をすることがあります。誤解があって、あなたのポリシーを侵害するような話はしていないよと、具体的に説明すると納得します。)話を戻すと、Google検索は「シンガプーラ 起源」など、含まれていそうなキーワードを釣り餌にして、情報をGoogleという海から釣るイメージです。対して、ChatGPTは「哲学の観点から、10歳にも分かる表現で、回答の総文字数300字で、箇条書きにして」と、回答するデータの分母をごっそり削り、さらに表現の仕方(わかりやすくとか、簡潔にとか、見やすく)のオプションも指示出来ます。Googleの検索が釣りだとすると、ChatGPTにより実用的に振る舞うよう指示することは砂場の山崩しゲーム(棒が倒れたら負けのやつ)ですね。後者の比喩は、上述の深津さん・徳力さんのアーカイブで学びました。

 

他にも、AIが登場することで、最初と最後だけ人間が担い、中間をショートカットする技術が生まれた。ただし、コンビニご飯が存在するから、人が料理しなくなるわけではないのと同じことが言える、という比喩も分かりやすかったです。

 

刀で戦っていた状況で、AIは銃の登場だ、という指摘も共感します。銃は大人と子ども・男性女性などの個体差を埋めて、銃を持った少年がヘラクレスを倒すことが起きうるという発想です。現状、一番強いのは銃を持ったヘラクレスだ、という指摘も、そうだと思います。例えば、言語生成系AIはテキストマイニングではなく、全件AIに読ませることが出来ます。FAQはそのサービスの信頼性の判断材料ですが、作成・更新の負担は大きいです。顧客情報と社内情報も扱うはずだから、慎重な導入は必要ですが、「問い合わせ内容の分析・自社FAQの解析・FAQと問い合わせ内容の差分を埋める」こと、これらは革新的な言語モデルであるChatGPTの得意分野です。ヘラクレスは誰でしょう? 例えばAmazonです。AmazonがFAQの作成・更新と、FAQを検索できるAIを実装したら、銃をもったヘラクレスですよね。

 

また、言語モデルのことを、「昔々といえば、おじいさんとおばあさんが」と、一定確率で続くことを学習し、確率によって自動生成する仕組みだと説明しているのも印象に残りました。

ChatGPT曰く「傾きは、機械学習の最適化アルゴリズムの一種であり、ニューラルネットワークの学習において重要な役割を担います。ニューラルネットワークの学習では、トレーニングデータを用いて、ニューロン間の重みやバイアスなどのパラメータを調整する必要があります。傾きは、ニューラルネットワークの損失関数を最小化するために、各パラメータに対する損失関数の微分を計算することで求められます。これにより、最適なパラメータが得られ、ニューラルネットワークの学習が進みます。」とのことで、再帰的な方法から、2017年に登場したTransformerが長い文脈を考慮に入れることに成功し、機械学習が進展して今に至るようですね。2022年11月末にChatGPTは公開されたけど、ブレイクスルーは2017年に起きていたのかも。

 

話は長くなりましたが、日本語を母語で利用するネイティブの私から見ても、極めてもっともらしい自然な発言をするし、日本語も8割程度は正確に把握してくれるので、間違えることもあるけど国語だけは120点出すこともある、みたいな得意不得意があるのも、ChatGPTの個性だし、言語モデルが本質だからそうなるよねと思っています。