Sakana AIが日本語で複数の画像を解説するAIモデルを開発
Sakana AI(東京都港区)が、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社独自の「進化的モデルマージ」という手法で開発された視覚言語モデル(VLM)だ。
この技術の特徴は、例えば2枚の犬の画像を見せて「それぞれを簡単に説明してください」と質問すると、犬種や装飾品などについて日本語で回答する。これは、非英語圏での複数画像処理AIモデルとしては新しい取り組みだ。
Sakana AIの「進化的モデルマージ」という独自のアプローチは、大規模な開発リソースを必要とする従来のAI開発手法に一石を投じている。複数のAIモデルを組み合わせて新たな高性能モデルを生み出すこの手法は、効率的なAI開発の可能性を示している。
急成長するSakana AI、日本初のAIユニコーン
Sakana AIの技術開発は、同社の急成長の原動力となっている。2023年7月の設立からわずか1年で、同社の企業価値は11億ドル(約1600億円)を超える見込みだ。これは、日本のスタートアップとして史上最速でユニコーン(企業価値10億ドル以上の未上場企業)の仲間入りを果たすことを意味する。
この急成長の背景には、創業者たちの輝かしい経歴がある。CTO(最高技術責任者)のライオン・ジョーンズ氏は、現在のAI革命の基礎となった論文「Attention Is All You Need」の著者の一人だ。CEOのデビッド・ハ氏も元Google AI研究者で、Stability AIの研究トップを務めた経験を持つ。COOの伊藤錬氏は、外務省出身でメルカリの執行役員を務めた経歴の持ち主だ。
Sakana AIの急成長は、日本のAI業界に新たな可能性を示すものとして、今後も注目を集めていくだろう。
【関連リンク】
・進化的モデルマージによる視覚言語モデルの新たな能力の獲得 複数の画像を扱える日本語視覚言語モデルを公開(Sakana AI)
https://sakana.ai/evovlm-jp/
関連記事
TEXT:PreBell編集部
PHOTO:iStock
この記事を気にいったらいいね!しよう
PreBellの最新の話題をお届けします。