大規模言語モデル（LLM）のこれまでとこれから② -モデル構築編-

本記事では、LLM研究全体の背景と現状、そして将来展望を網羅的に整理する調査論文をもとに、LLMの基礎を振り返ります。前回は、代表的なモデルについて深掘りしました。

今回は、モデルの構築について深掘りします。

参照論文情報

著者：Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao

前回のおさらい

前回は、LLMの登場に至るまでの経緯と代表的なモデルについて触れました。主に以下のような内容です。

上記の続き（あるいは独立したコンテンツ）として、以下では「モデルの構築」に焦点を当てています。LLMに一般的に使用されている構造を再確認し、データ準備やトークン化、事前学習、命令文の調整、そしてアライメントまでのデータ処理やモデリング技術について説明します。フローで示すと、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。