2023.12.07 Microsoft GPT-4V、ビデオ解析の新たな可能性
Microsoftは、ビデオの理解を強化させるために大規模言語モデル(LLM)の研究を進めており、その一環として新たな技術GPT-4V(ision)が開発された。
この研究の結果生まれた製品は、Microsoft Azure AIの最新ツールであるMM-VIDである。ASRツールやPySceneDetectツールを使用してビデオの視覚情報と音声要素を同時に解析し、ビデオの内容を詳細に認識し、それをプログラミング言語に変換する。
GPT-4V技術を利用することで、MM-VIDはキャラクターの動き、アクション、表情、対話などビデオフレームごとの詳細な説明を生成した。
この技術により、長時間にわたるビデオ全体の構成やテーマ、意図などを全面的に把握することが可能となった。
異なる話者やキャラクターを識別し、それぞれの発言や行動を追跡することができた。これはドキュメンタリーやニュース放送、教育ビデオなどで特に有用だ。
GPT-4Vがスマートフォンの行動を決定
先ほどの「MM-VID」に加え、米MicrosoftではGPT-4Vを用いたゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」も開発している。
MM-Navigatorは与えられた指示に基づいて、意図された行動の記述や局所化された行動の実行をとる。モデルはまず、画像とテキスト指示を理解し、クエリを分析して適切な行動を決定する必要がある。
例えば、「第3行目の第4列目にあるアイコンをクリックする」という自然言語の説明がある場合、モデルはこの理解をルールに基づいて「{Action: Click, Location:(0.31, 0.57)}」のような形式に変換する。
生成した出力にはマークタグが付けられ、これらのマークはセグメンテーションやOCR(光学文字認識)モデルを利用して位置を関連付ける。この方法により、MM-Navigatorは画面の画像、テキスト指示、およびその相互作用の履歴に基づいて実行可能な行動を生成することができる。
【関連リンク】
・GPT-4Vで“動画”を分析 米Microsoftが「MM-VID」発表(ITmedia NEWS)
https://www.itmedia.co.jp/news/articles/2311/10/news053.html
TEXT:PreBell編集部
PHOTO:iStock