AI技術の進化に伴い、大規模言語モデルは人間のように自然言語を理解し生成する能力を持つようになりました。大規模言語モデルは、インターネット上の大量のテキストデータから学習し、人間の言語使用パターンを模倣します。しかし、これまでの大規模言語モデルには一つの大きな制約がありました。それは、一度に処理できるテキストの量、すなわち「トークン数」に制限があったことです。

トークン数の制限とその影響

一般的な大規模言語モデルは、数千から数万トークンのテキストを一度に処理することができます。この制限は、モデルが長い文章や大量のテキストデータを一度に解析する能力を制約していました。例えば、一冊の書籍全体や大規模なデータベースのテキストを一度に解析することは、これまでのモデルでは困難でした。

LongNetの登場

このような背景から、より大量のテキストデータを一度に処理できる新たな大規模言語モデルの開発が求められていました。そこでMicrosoftの研究グループが開発したのが「LongNet」です。LongNetは、最大10億トークンまでのテキストを一度に処理する能力を持つことで、これまでの制約を大きく広げることに成功しました。

この進化は、AIが扱えるテキストデータのスケールを大幅に拡大し、大規模なテキストデータの解析や生成に新たな可能性をもたらします。

LongNetの特性とその革新性

LongNetの基本的な特性

LongNetは、Microsoftの研究グループによって開発された新世代の大規模言語モデルです。その最大の特徴は、一度に最大10億トークンまでのテキストを処理する能力を持つことです。これは、一般的な大規模言語モデルの数万倍から数十万倍のスケールを意味します。

※厳密にはLongNetはTransformerモデルの一種であり、「大規模言語モデルを育てる仕組みの段階にある技術」です。しかし、一般的には、このようなモデルも大規模言語モデルと呼ばれることが多いです。なぜなら、これらのモデルが大量のテキストデータから学習し、人間のように自然言語を理解し生成する能力を持つためです。そのため、記事では簡単のために「大規模言語モデル」と表現しています。

10億トークン処理の具体的な意味

10億トークンという数値が具体的に何を意味するかというと、例えば、一冊の書籍全体を一度の入力で処理できるということです。また、理論的にはインターネット全体のテキスト情報を一つの長い連続したデータとして扱うことも可能になります。

なにがLongNetを革新的たらしめるか

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

1,000,000,000（10億）トークンまでのテキストを一度に処理するモデル「LongNet」登場

研究の背景とLongNetの必要性

大規模言語モデルの進化と課題

トークン数の制限とその影響

LongNetの登場

LongNetの特性とその革新性

LongNetの基本的な特性

10億トークン処理の具体的な意味

なにがLongNetを革新的たらしめるか

記事検索

こちらもどうぞ

「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか？」に対するOpenAIの論文が発表されました。

🔒 プロンプトに例を多く載せるほど、どんなタスクでも性能が上がるのか？DeepMindによる『Many-shot Learning』の実験結果