LLMの未来：効率化・新アーキテクチャ・マルチモーダルへ

2024.02.13

効率化・軽量化（量子化、推論高速化、モデル圧縮、蒸留）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

大規模言語モデル（LLM）これまでとこれからを包括的に整理したサーベイ論文が公開されています。

“Large Language Models: A Survey”より

下記では、報告内容の中から「今後のLLMにおける研究の方向性」を抜粋して紹介します。

■小さくて効率的なモデルを開発する
– 大きなモデルは高コストで非効率的である
– そのためタスク特化の小型モデルへの関心が高まっている
– パラメータ効率の良いファインチューニングや、教師あり学習、蒸留法などの技術が活用される

■アーキテクチャのパラダイムを変える
– トランスフォーマーの”次”に関心が高まっている
– アテンションモデルに変わる状態空間モデル（Mambaなど）が筆頭候補
– 新アーキテクチャは長いコンテキストを効率よく扱うなどの優位性が確認されている

■マルチモーダルモデルに進化させる
– テキスト、画像、動画、音声など様々なデータタイプを統一的に扱うようになっていく
– アプリケーションの幅が広がる
– すでに優秀なモデルが出現し始めており、この流れは続いてくだろう

■実用性を向上させる
– LLMの短所（幻覚など）はプロンプトエンジニアリングや外部ツール、RAGなどで対処できることが分かり始めている
– 従来の機械学習システムを代替していく流れが起きている
– 個人の好みにパーソナライズするような設計が人気を集めている

■セキュリティ対策を強化する
– 敵対的攻撃からモデルを守るのが重要になっている
– 倫理的な懸念やバイアスに対処するための研究も活発化している
– 機密情報を責任を持って扱うように努力されている

論文情報：

著者: 著者：Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher 他

こちらもどうぞ