日本語生成AIの新たな進歩「Swallow」の登場
東京工業大学と産業技術総合研究所(AIST)は、強力な日本語生成AI、大規模言語モデル「Swallow」を開発し、公開した。これは、米・MetaのLLM「Llama 2(ラマツー)」の日本語能力を拡張するもので、商用利用も可能だ。
日本語対応の高性能なLLMは少なく、この開発は重要な進歩となる。日本語の能力を改善するために、東京工業大学が開発した大規模な「日本語ウェブコーパス(ウェブ上の日本語テキストを利用して構築されたコーパス)」を使用し、継続事前学習を行った結果、高い性能を示すことができた。
Swallowのパラメータ数は70億、130億、700億の3モデルが公開されており、それぞれがHugging Faceからダウンロード可能だ。Hugging FaceはAI・機械学習に特化したGitHubと、クラウド実行環境が合わさったサービスである。
AIトークナイザの進化、日本語の文節問題を解決
Llama 2の日本語トークナイザ(文章を単語(=トークン)に分解する手法)には、日本語の主要な単語や文字が含まれておらず、テキストが不自然な単位に分割される問題があった。
これは学習や生成の効率を低下させ、下流タスクの性能にも影響を与える。しかし、1万6000件の日本語トークンが追加されたことで、文章全体の長さを56.2%短くすることができた。これは、より効率的に日本語を処理できるようになったことを意味している。
トークンは1単語または記号で、日本語ではひらがな1文字=1トークン以上、漢字1文字=2〜3トークンとカウントされる。
【関連リンク】
・日本語能力に優れた商用利用可能な大規模言語モデル「Swallow」が公開される(Gigazine)
https://gigazine.net/news/20231221-japanese-llm-swallow/
関連記事
TEXT:PreBell編集部
PHOTO:iStock
この記事を気にいったらいいね!しよう
PreBellの最新の話題をお届けします。