米アップル、既存のMLLMよりも20.4%高い性能「Ferret」を開発
米アップルが開発し、GitHubで公開している「Ferret(フェレット)」は、Multimodal Large Language Model(MLLM)を基盤としたモデルで、画像と言語を組み合わせて理解する能力を持ってる。
このモデルの主な特徴は、画像内の特定の部分や領域を自然言語で表現することができることだ。ただし、単純な四角や点だけではなく、複雑な形状や線も正確に表現することが求められる。
Ferretは、画像内の指定されたオブジェクトの領域を組み合わせて理解し、どんな形状でも正確に捉えることができる。このために、General Robust Image Task (GRIT)という評価専用ベンチマークを用意した。
GRITは、110万のサンプルで成り、物体や場所の関係性などの情報を含んでいる。また、文章から位置を決定するタスクや、位置から文章を生成するタスクのデータも含まれている。
同社は、Ferretの性能を評価するために、「Ferret-Bench」というアセスメントツールを開発した。過去の研究やタスクから得られたデータを使用して、Ferret-Benchで既存のMLLMと比較した結果、Ferretは20.4%高い性能を示した。
さらに、Ferretは物体の誤認を減らすという興味深い特性も持ってる。このような新しい技術の登場により、画像と言語を組み合わせた多様な応用が期待される。
米アップルのAI戦略、画期的な技術開発でユーザーエクスペリエンス向上を目指す
アップルは、機械学習とAI戦略を統括するジョン・ジャンナンドレアの指揮のもと、年間約10億ドル(1500億円)をAI開発に投じると発表した。この投資により、新しいAIシステムの基盤技術が開発され、早ければ2024年には「Siri」の改良版がリリースされる予定だ。
さらに、ソフトウェア開発グループ担当のクレイグ・フェデリギは、AI搭載の「iOS」の開発を進めており、ユーザーの「メッセージ」やSiriなどの体験を向上させることが期待されている。また、「Apple Music」や「Pages」「Keynote」などのアプリにもAIを搭載する予定だという。
【関連リンク】
・フェレットどんなものでも、どんな場所でも、どんな粒度でも参照し、接地する(cornell university)
https://arxiv.org/abs/2310.07704
TEXT:PreBell編集部
PHOTO:iStock
この記事を気にいったらいいね!しよう
PreBellの最新の話題をお届けします。