ユニークなことに、人々が「AI用の学習データ」をフェアに取引できるようにする暗号化技術が開発されています。
もしあなたがAI用の学習データを企業に売りたいと思ったとき、
「品質を示すために中身を見せてしまえば、買い手は支払いなしにデータを手に入れてしまう」
というジレンマを抱える ことになります。
一方で、企業としても、
「そのデータが自分のモデルにとって本当に役立つのか、実際に中身を見てみないと判断できない」
「しかし一度中身を見てしまえば、質の悪いデータを高く買わされるかもしれない」
という問題があります。
研究チームはこの問題を解決するために、データは暗号化されたまま、つまり誰も中身を読めない状態のまま、そのデータがAIモデルの性能をどれだけ向上させるかを数値で計算できる仕組みを作ったそうです。
実験では、暗号化したまま計算した価値が、実際にデータを使って学習し直した結果と96%の相関が確認されています。
なお、検証の過程で得られた「どんな学習データがLLMの性能を向上させるか」についての記録が残されており、例えば演劇の台本は論理的思考タスクに非常に役立った一方で、宗教書やジョーク集は性能を大きく下げたそうです。
このような「使わなければわからない」と思われていた学習データの価値を予測できるツールとしても期待されるかもしれません。
📄 参照論文
Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption
所属: University of Texas at Dallas