本記事では、データ活用の現場で大きな壁となっているデータクリーニングという作業を効率化する自動化手法を紹介します。
発表者情報
- 研究者:Lan Li et al.
- 研究機関:イリノイ大学
背景
私たちの身の回りには、様々な形でデータが記録・蓄積されています。その中で、例えば飲食店の衛生検査データを管理する係だったとします。同じスターバックスコーヒーの店舗でも、「STARBUCKS COFFEE #279」「Starbucks Coffee #2901」のように表記が揺れていたり、検査結果が「pass」「PASS」「Pass」と異なる形式で記録されていたりすることがあります。エクセルで管理している顧客データでも、「株式会社」「(株)」「KK」など、企業名の表記が担当者によってバラバラ、という経験をお持ちの方も多いのではないでしょうか。
このようなデータの不整合は、分析結果に大きな影響を与える可能性があります。同じ店舗が別々の店舗としてカウントされたり、検査合格店舗の集計に誤りが生じたりするかもしれません。顧客データの場合、同じ企業が重複してカウントされることで、取引先の総数が実際より多く見積もられてしまう恐れもあります。
こうした問題を解決するために必要なのが、データクリーニングと呼ばれる作業です。しかし、大量のデータを手作業で確認し、修正していくのは途方もない時間と労力がかかります。実際、データを扱う専門家であるデータサイエンティストでさえ、作業時間の80%以上をこのデータクリーニングに費やしているという調査結果があります。
さらに、データクリーニングの方法は目的によって変わってきます。例えば店舗数を正確に把握したい場合は表記ゆれを統一する必要がありますが、各店舗の詳細な情報を分析したい場合は、むしろ細かな表記の違いを残しておくことが重要かもしれません。
そんな中、研究者らはこの課題を解決するため、LLMを活用した自動データクリーニングシステムの開発に取り組みました。人間の言語を理解し、状況に応じて適切な対応ができるLLMの能力は、データクリーニングの自動化にも大きな可能性を秘めているのです。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。