【GPT-4oをわかりやすく解説】専門家が「時代の転換点」と評価するヤバすぎる能力とは

1: ■忍【LV3,ゾーマ(闇),FX】第13艦隊◆IpxlQ2BXrcdb 24/05/23(木) 08:57:14 ID:???

!icon
https://i.imgur.com/pRGN69zs.jpeg
（略）……全人類が史上最高のAIを使えるようになった「時代の転換点」

　ライブの内容は、スマホ上で動作するGPT-4oを相手に、スマホのカメラで外の様子を撮影しつつ、声によって会話を行うという
ものでした。何気ない日常的な会話、数学の問題を一緒にやる、プログラミングを一緒にやる、図を理解させる、複数言語間の翻訳
を行う、などといった非常に幅広い内容のやり取りです。

　ただ「人間とAIが対話を行う」ということであれば、アップルのSiriやAmazon Alexaなどのスマートスピーカーや今までの生成AIアプリ
でも可能でした。しかし、今回のデモで発表されたGPT-4oは、カメラで撮影されている人間の表情、背景、紙に描かれていることなどを
リアルタイムで間違いなく認識し、応答までのスピードもまったく人間と変わらないという驚異的なものでした。

　さらにこのやり取りの中でGPT-4oは、笑い、言いよどみ、驚き、歌うなど、人間のような感情表現を見せ、従来のAIのような機械的
な応答とはかけ離れた振る舞いを見せました。

　たとえば、OpenAIのライブにおいて「I?ChatGPT」と書かれた紙を見せられたGPT-4oは、感極まった声の調子で息遣いすら感じる
笑いとともに人間に対して応答しています（発表時の動画の17分20秒付近）。

　ここまでくると、単に会話の音声だけを聴いて、これが人間同士ではなく「AIと人間の会話」だと認識できる人はほぼいないというレベルです。
SF世界のAIが現実世界に出てきてしまいました。

　そして、ここで公開されたGPT-4oは、ライブの終了後、ChatGPTの無料ユーザーも含め、すべてのユーザーに対して利用可能になりました。
全人類が史上最高のAIを使えるようになった、時代の転換点です。

GPT-4oとはそもそも何か？技術情報を解説
　ここからは、今回のOpenAIが発表したGPT-4oについて重要な点、技術情報をわかりやすく解説します。
　まず、GPT-4oは言語や画像、音声、動画のすべてを処理できるマルチモーダルモデルです。マルチモーダルというと少し聞き
なれない言葉かもしれませんが、要するに、言語や音声、画像などさまざまな情報＝モダリティをまとめて処理できるAIであるということです。

　今までのChatGPT/GPT-4でも部分的なマルチモーダル機能は実現されていましたが、GPT-4oではさらにこれが強化されています。
GPT-4oは単一のニューラルネットワークで、言語、画像、音声、動画を入力でき、また出力もできるようになっています。
入力できるトークンの上限は12万8000トークンになっています（GPT-4 Turboと同等、GPT-4は3万2768トークン）。（以下略）

GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

2024年5月、OpenAIは突如として最新のAIモデル「GPT-4o」を発表しました。末尾のoは「omni」の略称で、その意味は言語、画像、音声、動画を1つのモデルで処理できる能力があること。この能力を活用したリアルタイムのデモは、全世界...

◆ニュー速＋　記事情報提供スレ　147◆

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
!jien ＝お知らせ＝　

おーぷん2ちゃんねる、ニュー速＋ http://uni.open2ch.net/newsplus/

【アク禁依頼・解除】は「政経雑談スレ」に連絡を入れて下さい。

侮蔑語・煽り・スレと関係ないレスバトル・レッテル貼り連呼・下品な発言
・不快なaa・会話不能などが、アク禁対象です。
　　　　　　　　　　　（アク禁依頼・解除はレス番で！！）
　　　　　　　　　　　　　　　　＊アク禁理由も添えてくださいませ！！
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

引用元: ・【GPT-4oをわかりやすく解説】専門家が「時代の転換点」と評価するヤバすぎる能力とは［R6/5/23］