https://i.imgur.com/pRGN69zs.jpeg
(略)……全人類が史上最高のAIを使えるようになった「時代の転換点」
ライブの内容は、スマホ上で動作するGPT-4oを相手に、スマホのカメラで外の様子を撮影しつつ、声によって会話を行うという
ものでした。何気ない日常的な会話、数学の問題を一緒にやる、プログラミングを一緒にやる、図を理解させる、複数言語間の翻訳
を行う、などといった非常に幅広い内容のやり取りです。
ただ「人間とAIが対話を行う」ということであれば、アップルのSiriやAmazon Alexaなどのスマートスピーカーや今までの生成AIアプリ
でも可能でした。しかし、今回のデモで発表されたGPT-4oは、カメラで撮影されている人間の表情、背景、紙に描かれていることなどを
リアルタイムで間違いなく認識し、応答までのスピードもまったく人間と変わらないという驚異的なものでした。
さらにこのやり取りの中でGPT-4oは、笑い、言いよどみ、驚き、歌うなど、人間のような感情表現を見せ、従来のAIのような機械的
な応答とはかけ離れた振る舞いを見せました。
たとえば、OpenAIのライブにおいて「I?ChatGPT」と書かれた紙を見せられたGPT-4oは、感極まった声の調子で息遣いすら感じる
笑いとともに人間に対して応答しています(発表時の動画の17分20秒付近)。
ここまでくると、単に会話の音声だけを聴いて、これが人間同士ではなく「AIと人間の会話」だと認識できる人はほぼいないというレベルです。
SF世界のAIが現実世界に出てきてしまいました。
そして、ここで公開されたGPT-4oは、ライブの終了後、ChatGPTの無料ユーザーも含め、すべてのユーザーに対して利用可能になりました。
全人類が史上最高のAIを使えるようになった、時代の転換点です。
GPT-4oとはそもそも何か? 技術情報を解説
ここからは、今回のOpenAIが発表したGPT-4oについて重要な点、技術情報をわかりやすく解説します。
まず、GPT-4oは言語や画像、音声、動画のすべてを処理できるマルチモーダルモデルです。マルチモーダルというと少し聞き
なれない言葉かもしれませんが、要するに、言語や音声、画像などさまざまな情報=モダリティをまとめて処理できるAIであるということです。
今までのChatGPT/GPT-4でも部分的なマルチモーダル機能は実現されていましたが、GPT-4oではさらにこれが強化されています。
GPT-4oは単一のニューラルネットワークで、言語、画像、音声、動画を入力でき、また出力もできるようになっています。
入力できるトークンの上限は12万8000トークンになっています(GPT-4 Turboと同等、GPT-4は3万2768トークン)。(以下略)
◆ニュー速+ 記事情報提供スレ 147◆
----------------------------------
!jien =お知らせ=
おーぷん2ちゃんねる、ニュー速+ http://uni.open2ch.net/newsplus/
【アク禁依頼・解除】は「政経雑談スレ」に連絡を入れて下さい。
侮蔑語・煽り・スレと関係ないレスバトル・レッテル貼り連呼・下品な発言
・不快なaa・会話不能などが、アク禁対象です。
(アク禁依頼・解除はレス番で!!)
*アク禁理由も添えてくださいませ!!
----------------------------------
コメント