データの前処理を得意とするLLM『Jellyfish(クラゲ)』が公開されました。
未知のタスクにも対応でき、比較的軽量であり1GPUでも動作するとのことです。
大阪大学、NEC、名古屋大学の研究者らによる発表です。
– “Jellyfish: A Large Language Model for Data Preprocessing”
論文によると、これまでデータの前処理を行うソリューションは特定のタスクに対応しているものが主流でした。
しかし、LLMの登場により、幅広い前処理タスクを一度にこなせる可能性が浮上しました。
そこで研究者らは、自前の軽量なモデル『Jellyfish』に前処理タスクを学習させることで、汎用的に前処理タスクを実行できるツールを開発しました。
■『Jellyfish』のポイント
① データベースタスク特化モデルが進化
(GPT-4と同等の性能でデータ処理を行う)
② ゼロショットでデータ前処理タスクを実行
③ 多様な前処理タスクに対応
④ サイズが小さいため、1GPUでも動作する
■カバーしている前処理タスク
① エラー検出
② 欠損値のImputation(補完)
③ スキーママッチング
④ エンティティマッチング
■使い方
① モデルのページにアクセス(HuggingFace)
② ライブラリを整えてモデルをインストール
③ 手元にデータを用意し、プロンプト指示で前処理を実行
④ 必要に応じてチューニングを行う
論文によると『Jellyfish』は未知のタスクにも対応でき、出力に対する理由も添えることができるとのことです。
ただし高度に専門的なドメインのデータを扱う場合は、訓練しなおす必要がある可能性が注意点として挙げられます。