軽量LLM Jellyfish、データ前処理をゼロショット実行

2023.12.06

データ（データセット構築、合成データ、データ拡張）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

データの前処理を得意とするLLM『Jellyfish（クラゲ）』が公開されました。
未知のタスクにも対応でき、比較的軽量であり1GPUでも動作するとのことです。

大阪大学、NEC、名古屋大学の研究者らによる発表です。

– “Jellyfish: A Large Language Model for Data Preprocessing”

論文によると、これまでデータの前処理を行うソリューションは特定のタスクに対応しているものが主流でした。
しかし、LLMの登場により、幅広い前処理タスクを一度にこなせる可能性が浮上しました。

そこで研究者らは、自前の軽量なモデル『Jellyfish』に前処理タスクを学習させることで、汎用的に前処理タスクを実行できるツールを開発しました。

■『Jellyfish』のポイント
① データベースタスク特化モデルが進化
（GPT-4と同等の性能でデータ処理を行う）
② ゼロショットでデータ前処理タスクを実行
③ 多様な前処理タスクに対応
④ サイズが小さいため、1GPUでも動作する

■カバーしている前処理タスク
① エラー検出
② 欠損値のImputation（補完）
③ スキーママッチング
④ エンティティマッチング

■使い方
① モデルのページにアクセス（HuggingFace）
② ライブラリを整えてモデルをインストール
③ 手元にデータを用意し、プロンプト指示で前処理を実行
④ 必要に応じてチューニングを行う

論文によると『Jellyfish』は未知のタスクにも対応でき、出力に対する理由も添えることができるとのことです。
ただし高度に専門的なドメインのデータを扱う場合は、訓練しなおす必要がある可能性が注意点として挙げられます。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ