文書のトピックを自動で正確に知りたい
第4次産業革命と知識情報処理の時代の到来により、技術・社会システムで処理されるデータ量は指数関数的に増加した。大量のテキスト情報と世論は様々なソーシャルメディアサービスを通して記録されており、構造化されていない大量のテキストデータの中に隠された、意味のある情報を発見するための新しい技術が必要とされている。
こうした背景から、文書、電子メール、HTML形式などの非構造または半構造テキストから意味のある情報を抽出する技術としてテキストマイニングが注目されている。特に、文書からトピックを抽出することができる「トピックモデリング」は、 一般的なテキストマイニング手法の一つであり関心を集めている。
代表的なトピックモデリング手法に「LDAアルゴリズム」がある。しかし、従来のLDAアルゴリズムは、テキスト中の用語の出現回数をそれらの潜在的トピックを抽出するための基礎として使用しており、文章の感情表現は考慮されていない。
韓国にある東義大学校のY. Imら研究者は、大量のテキストデータの中の情報を見つける新しい技術と方法が必要とされている現状において、従来のLDAアルゴリズムは文章の感情表現を活用していないという課題に着目し、感情分析(SA)とLDAを組み合わせることを試みた。結果、感情分析(SA)とLDAを組み合わせた場合、異なる感情レベル同士で比べても信頼スコアに有意な差は生じなかった。
文章の感情レベルに応じて、トピック抽出にふさわしいアルゴリズムは異なる
Y. Imらの研究のポイントは以下の通りだ。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。