Sakana AIが日本語で複数の画像を解説するAIモデルを開発

2024/08/29

Sakana AI（東京都港区）が、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社独自の「進化的モデルマージ」という手法で開発された視覚言語モデル（VLM）だ。

この技術の特徴は、例えば2枚の犬の画像を見せて「それぞれを簡単に説明してください」と質問すると、犬種や装飾品などについて日本語で回答する。これは、非英語圏での複数画像処理AIモデルとしては新しい取り組みだ。

Sakana AIの「進化的モデルマージ」という独自のアプローチは、大規模な開発リソースを必要とする従来のAI開発手法に一石を投じている。複数のAIモデルを組み合わせて新たな高性能モデルを生み出すこの手法は、効率的なAI開発の可能性を示している。

急成長するSakana AI、日本初のAIユニコーン

Sakana AIの技術開発は、同社の急成長の原動力となっている。2023年7月の設立からわずか1年で、同社の企業価値は11億ドル（約1600億円）を超える見込みだ。これは、日本のスタートアップとして史上最速でユニコーン（企業価値10億ドル以上の未上場企業）の仲間入りを果たすことを意味する。

この急成長の背景には、創業者たちの輝かしい経歴がある。CTO（最高技術責任者）のライオン・ジョーンズ氏は、現在のAI革命の基礎となった論文「Attention Is All You Need」の著者の一人だ。CEOのデビッド・ハ氏も元Google AI研究者で、Stability AIの研究トップを務めた経験を持つ。COOの伊藤錬氏は、外務省出身でメルカリの執行役員を務めた経歴の持ち主だ。

Sakana AIの急成長は、日本のAI業界に新たな可能性を示すものとして、今後も注目を集めていくだろう。

【関連リンク】

・進化的モデルマージによる視覚言語モデルの新たな能力の獲得　複数の画像を扱える日本語視覚言語モデルを公開(Sakana AI)
https://sakana.ai/evovlm-jp/

TEXT：PreBell編集部
PHOTO：iStock

tag: #AI

#テクノロジー

#言語モデル

この記事を気にいったらいいね！しよう

PreBellの最新の話題をお届けします。

Follow @prebell_jp