AIのことを語りたい。

言語生成AIと人の共生は、言語生成AIと共に学ぶこと。言語生成AIの主に人文系の学習用途を模索するblogです。

文字起こしAI Whisperの可能性: データの量、表現への「音」の反映で有用

この文章は、フリック入力で書いています。シンプルな表現ですが、言葉の選び方など、私の価値観が反映された文章です。これはこれで、私の言葉。

 

対してこの文章は OpenAIの、文字起こしAI Whisperを使って音声入力しています。微調整は、実際のテキストデータを見て、私が確認しています。例えば誤変換などがあります。

でも、トータルでは音声で入力した状態になっています。私がフリック入力で書いた文章と文章のテイストが違うことは、ご確認いただけるかと思います。

音声入力は口述筆記の魅力があります。考えてみると私たちは、言葉を学習する際に音読を行いますし、大人になってからも自分の書いた文章が自然であるか、読んでいて音として不自然ではないか、リズムは整っているか、読みやすいか否かを、音読することでチェックしています。

目で読むだけでなく、音読すれば自分の耳でもチェックできるというメリットもあります。ですから最初から音声入力してしまえば、「今お伝えしたメリットを、文章に反映させられるのではないか」と私は仮定し、試しているところです。(音声入力の時間:2分32秒)

(Whisperは公式iPhoneアプリのChatGPTに搭載されています)


もうお気づきですね。音声入力は簡単に文字情報を得られ、音の響きは最初から調整しています。反面、読むためには、論理構造がおかしかったり、表現が冗長だったり、書き言葉に置き換えた方が効率的だったりする、デメリットが有ります。

使い分けが出来たら豊かです。

 

 

より具体的に 


この文章は抽象的な話です。次に、noteの私が属するクラスタは、エッセイや描写の上手い方が多く、読む方の目も肥えています。だから、描写やテイスト、如何に書くかを課題にしました。

音声入力は、最大10分で、3回に分けて、合計3000文字以上でした。

①冗長さ・誤変換・句読点の調整
②全体の構成を、ABCDだったものを、ADEに変更するように、構成の順番と、その内容の統合なども行う
③公開時の文字数2272文字


結論

①タイピングより早くテキストデータが欲しい。意味さえ通れば、言語生成AIで調整出来るニーズ。

フリック入力などで、最初から書き言葉として表現しにくい、響きの問題や文体など、表現の工夫を行いたいニーズ。

この2つのニーズには、音声入力は有効に思えます。引き続き、検証してみます。


FYI