Googleの研究者は、”Colossal Clean Crawled Corpus(直訳:「巨大でキレイな腹這いコーパス*」)”という名前の新しいデータセットと、”Text-to-Text Transformer”と呼ばれる統合フレームワークとモデルを開発しました。
コーパス:自然言語処理に用いる、自然言語の文章を構造化し大規模に集積したもの。
研究者によると、これは今までで最大のモデルの1つで、「質疑応答(Q&A)」、「テキスト分類」で最高の結果を達成しました。
毎月20テラバイトの英語をWebから
一般に、「NLP(自然言語処理)タスクを実行する」ようにモデルをトレーニングするには、モデルがテキストを「理解」できるようにする知識、つまり低レベルから高レベルまでの知識を入力する必要があります。
研究者チームは、テキストを入力として、新しいテキストを出力し、
- 目的
- トレーニング手順
- デコードプロセス
をすべてのタスクに適用するアプローチを検討しました。
このプロジェクトでは、毎月約20テラバイトの英語テキストをWebから抽出しました。「無意味なメニュー」「エラーメッセージ」「重複があるページ」を削除する際には、ターミナルの句読点で終わるテキスト行のみを保持したりしました。
結果として、「従来のデータセット」よりも桁違いに大きい750 GB程度のデータセットが出来あがりました。
Googleの研究チームは、「テキストからテキストへのアプローチ」の有効性を評価しました。
特に、”Text-to-Text Transformer”は、GoogleのAI研究部門であるGoogle Brainの科学者が共同執筆した2017年の論文で紹介された新しいタイプのニューラルアーキテクチャです。
アーキテクチャはすべてディープニューラルネットワークです。すべての出力要素がすべての入力要素に接続されますが、それらの間の重みが効果的に計算されるように、独自の工夫が施されています。
110億個のパラメーター
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。