視覚に障害のある人とAI ~生成AI利用の現状と今後の可能性について~ 小川 祐一郎 はじめに ・このたびは、このような機会を与えていただき、誠にありがとうございます。 生成AIに関する話題が活発化してから3年が経過しました。 この期間において、私が取り組んできたこと、周囲の人から得たヒント、そして今後の展望について、紹介いたします。 •約7年前、インストラクター養成講座にてお会いした方もいらっしゃるかと存じますが、その他にもご参加いただいている皆様と、今回、情報交換の機会をいただければ幸いです。 今日の主な内容 •生成AIの特徴 •そもそもAIでどのような活用がなされているか •視覚障害者にとっての活用 •今後の可能性 第1部 •生成AIの特徴 •これまでにわかってきた特徴について紹介します。 生成AIが話題になる前の状況 •人工知能(AI)は、長年にわたり、ドラマや映画に登場するような未来型の対話型AI、研究所で用いられるようなAIなど、様々な形で開発されてきました。 しかし、これらは私たちにとって馴染みのあるものではありませんでした。 •生成AIが注目を集める前の10年間を振り返ってみます。どのようなAIが存在していたのでしょうか。 この10年で親しみやすくなったAI たとえば、Siri、Google assistant、エモパー(シャープ)、しゃべってコンシェルなど、さまざまなAIを使ったサービスが登場しました。 今の生成AIには程遠いですが、対話型と言うことで、親しみやすいものがありました。 なぜ、生成AIなのか •検索した情報、指定したコマンドに対して、AIが答えを返す時、アレンジした答え、つまり、生成した回答を返すことが特徴です。 話題になったChatGPTにおいて、Gという略語は、ジェネレティブ、つまり、生成するという構造を意味します。 生成AIの競争と共走 •現在、毎日のように、生成AIの新しい使い方に関する報道、新しいタイプの生成AIの開発の報道がなされています。 比較的一般的になったのが、以下の三つといえます。 •ChatGPT •Gemini •Copilot そして、これらの仕組みが競争しながら共走しています。 どのような特徴があるか •Chatgpt:元々OpenAIという組織で開発され、さまざまなOSやアプリに技術を提供し、幅広く使われている。 •Gemini:Googleのサービスを使うことに優れている。ドキュメント、スプレッドシート、スライドなど •Copilot:Microsoft製品との互換性に優れている。Word、Excel、Powerpointなど 検索結果の違い •これら三つのAIのシステムの検索結果の違いが、さまざまな場所で公表されています。 今回は、これらの違いにはあまり言及しません。 •例えば、Geminiは最新の情報を含んでいる •Chatgptは、自然な言語を生成する傾向にある という特徴が伝えられていますが、ここではあまり比較をすることは省略します。 もう一つ大きな特徴 生成AIのもう一つの特徴として、大規模言語モデル(LLM)があります。 これは、言語そのものを理解しているというより、言語で使われる言葉を予測し、あたかも会話をしているような動きをします。 ですから、実際、日本語で会話をしているようでも、生成AIは、多くの言語から情報を収集し、日本語に翻訳し、日本語の情報のように取り扱います。 ですから、複数の言語に同時に翻訳するときなど、機能を発揮します。 生成AIの問題点 •先ほどのLLMの特徴として、感情を持ったような会話をするというものがあります。 実際には感情を持ちません。うまく行っていれば問題ないのですが、いったんトラブルが起こると、次のような問題となります。 1 AIの自己弁護、および自己保護(私は感情を持ちません、私にはわかりません) 2 会話の破綻(この会話を終了してください) 3 責任のユーザーへの添加(私には責任が持てません) もう一つの問題点 •先ほどのLLMの特徴からくる問題点ですが、本来、言葉を知らないので、それらの組み合わせから、あたかも、事実を伝えているようで、錯覚を引き起こす現象、ハルシネーション(hallucination)という現象が起きます。 どのような錯覚をおこすか •AIが右と左を間違って答えてしまいました。 これは、情報そのものが間違っているというより、ある対象物から見て右か左か、別の方向から見ると逆の方向に認識する。 結局、右か左か混乱する。 あたかも正しいように答えてしまう。 実際に活用するために •これまで紹介した問題点を知りつつ、前向きに活用することによって、毎日の生活に上手に活用することができます。 •自分の生活に沿った活用法を考えることが重要です。 調べた内容が本当かそうでないか •先ほどの、AIの錯覚を知るために、実際に自分が知っていることをいくつか質問してみます。 そうすると、AIが得意な分野、不得意な分野がわかります。 •また、できるだけ正確な情報を得るには、質問の中に、以下のような内容を追加すると便利です。 •「あなたのアレンジではなく、はっきりした情報を伝えてください。」 •「出典がはっきりした情報をお願いします。」 googleやyahooなど、インターネット検索の時のことを思い出す •これまでのインターネット検索は、調べた結果だけを表示します。 •生成AIでは、調べた結果をAIがアレンジします。 では、明らかに正しい、事実として証明されたことを質問してみます。 実際に調べてみる •本来、文字を入力して調べるのですが、ここでは、音声を使って調べてみます。 •私が今から、AIと会話してみますので、内容をお聞きください。 第2部 •ここから、視覚障害者にとっての活用について紹介します。 •便利な活用法だけでなく、困ったこと、解決法についても紹介します。 私の周囲の関心から •私は、盲学校において、成人生徒を対象とした授業を担当しております。 そこで、成人生徒の生成AIに対する関心の高さを実感しました。具体的には、現在の学習における活用方法、そして将来の生活における活用の可能性について、生徒の皆さんから質問を受けました。 •具体的に言えば、練習問題の解説、作成した文章の構成です。 •最初は、学校の現場ということで、偏った活用法に思えたのですが、AIの活用に広く応用できることがわかってきました。 実際に使ってみての反応 •実際に使用した結果、その利便性、情報発信における重要性、そして情報の正確性確認の必要性について確認することができました。 •成人層からは、職種によっては業務の喪失や価値の低下といった懸念の声もありました。 •しかし、それは、当然の反応と言えます。 事例を二つ •事例1 資格試験対策の学習において、問題の解説をAIがどのように行うか。 •事例2 ある報告書作成を行うとして、AIがどのような結果を示すか。 業務効率化 •最近、生成AIの業務効率化、レポート作成、数学の問題を解くなど、ここ数年で、今までは考えられなかった活用が期待され、また、新たな課題を生み出しています。 •では、視覚障害者にとっての業務効率化とは、どのようなことが考えられるでしょうか。 •キーワードだけ列挙します。 •誤字脱字の修正、レイアウトを整えた文書や表作成、PDFファイルの要約、画像の読み取りなど。 一般的に言われる効率化 •先ほどの生成AIとOSやプラットフォームとの関係を見ても、業務効率化のための開発に力を入れていることがわかります。 •Appleに関して、開発が遅れていると報道されていますが、これは、そうした結びつきによるものが大きく影響しています。 なぜか、うまくいかない体験談 うまくいかなかった例を紹介します。ここでは、箇条書きに四つ紹介します。 ・1 誤字脱字を調べて欲しかったのに、文章の内容まで変えられてしまった。 ・2 wordやexcelのファイルを作って欲しかったが、ダウンロードがうまくいかなかった。 ・3 スマートフォンで調べ物をし、うまく見つかったが、テキストとしてコピーすることに苦労した。 ・4 パソコンで調べた後、せっかくメモ帳などのアプリにコピーしたが、予想しない文字、例えば*や#が付いていて困った。 解決法(1) •生成AIにコマンドを送る場合、一般的に「プロンプト」と呼ばれていますが、このプロンプトを工夫することで、効率よく作業を行うことができます。 •文字の内容を変更せず、誤字脱字だけを調べる •レイアウトを整えて、Wordで出力する •excelで、20ポイントの文字で、1ページに収まるようにする 解決法(2) •本来、wordやexcelなどのダウンロードボタンが存在するのですが、さまざまな事情により、ダウンロードが不可能なことがあります。 その場合、プロンプトに、「ダウンロードのボタンが押せないので、本文にそのまま表示」と入力すれば、問題が解決します。 解決法(3) • パソコンのブラウザの画面では、コピーボタンが表示されますが、スマートホンでは、調べた画面で上下にフリックすると、「コピー」と発声するところがありますので、そこでコピーができます。 解決法(4) •せっかくコピーしたのに、*や#の文字が表示されることがあります。 これは、マークダウンと呼ばれるもので、書式を文字で表したものです。例えば、**で囲まれた部分は太字で表示されます。 では、この文字が出ないようにする方法はあるのでしょうか。会場で説明いたします。 画像解析 •視覚障害者にとっての画像解析は、場合によっては、業務効率化より先にも要望が高かったかもしれません。 例えば、スキャナーを使ったOCR処理は、数十年の歴史を持ちますが、この分野でAIが使われてきたことは言うまでもありません。 では、生成AIの時代、この画像解析は、どのように進化したのでしょうか。 画像処理に関するアプリ •これまで、画像処理を行うアプリがさまざま紹介されてきました。 •Seeing AI •Be my eyes •Swift eye •アプリそのものは、それほど変化していませんが、使い方の工夫が紹介されています。 •会場で、これらを活用した事例を紹介します。 画像生成 •今まで、視覚に障害のある人にとって、自分で画像を作成するのは難しいことでした。 •しかし、先ほどのプロンプトの工夫によって、画像を作成することができるようになりました。 会場で、私が作成した方法について紹介します。 失敗談 •AIの活用において、あえて、難しい課題を作って、うまくいくかどうかチャレンジしてしまいました。 失敗談ではありますが、とても良い勉強になりました。 一つの実験 •まず、日本語の点字について、AIがどの程度理解しているか質問 •点字のルールについて、必要な情報をAIに学習させる •実際にひらがなやカタカナを点訳させる 実験の結果 •部分的には点訳ができましたが、満足いくものではありませんでした。 •しかし、この方法が確立すれば、例えば、 •1 有料の点訳データを購入 •2 AIに学習 •3 パソコンやスマートホンでの点訳 ということが可能になるかもしれません。 第3部 •会場での受講者の体験 •実際の会場のレイアウトの様子、受講者の様子がわからない部分もありますが、二つの体験の方法を考えました。 実演の方法の紹介 •1 目の前にある画像(紙に印刷されたもの)をAIを使って読み取る •2 AIを使って調べてみる 今後、実演していただく際のご協力のお願い • 画像の読み取りは、プライバシーのこともあって、どの画像を使うか迷ってしまいますが、AIに架空の、つまり、実際に存在しなくても、それに近い画像を生成することができるので、大いに活用することをお勧めします。 第4部 •PDFの要約を試してみる •PDFの読み取りには、これまで、いくつかの課題がありました。 •レイアウトが複雑 •内容が膨大 •そもそも、文字として認識しない Googleの機能であるNotebooklmを使っての感想 •PDFの要約に、googleのnotebooklmを使ってみました。 •実際に、どのように要約されたか、会場で紹介します。 第5部 •今後の可能性、期待感も含めて紹介します。 生成AIの今後の可能性 •今後、どのような可能性があるか、私のアイディアをいくつか紹介しますが、 ぜひ、会場の皆さんからのアイディアを聞かせていただきたいと思います。 今後の動き:オンラインからオフラインへ •生成AIは、オンライン、つまり、インターネット接続によって使われてきました。 しかし、先ほどのOSやプラットフォームとの関係において、オンラインからオフラインへと動きが変わってきています。 もちろん、オンラインでの活用が衰退しているわけではありません。 時間があれば:オフラインの実演 •では、ここで、オフラインの実演をしてみます。 •一つの文を用意しました。これを、AIにより編集してもらいます。 終わりに 本日は、貴重な機会を与えていただきありがとうございました。 皆様との情報交換を大切にしたいと考えています。 また、今後皆さんと一緒に活動できることを願っています。•ありがとうございました。