こんにちは。エンジニアライターの小原です。
連載「現場にコミットする機械学習ノート」では、論文を詳しく読み解きながら、現場で使えるAI実装のヒントを記録していきたいと思います。
前回の記事では、「AIで噴火を検出」を扱いました。
今回は、アイルランドの
School of Computing, Dublin Business School,のS. R. Shahらが2020年3月に発表した「YouTubeのコメントを複数の手法で分析」に関する論文を扱っていきます。
もくじ
1章 多言語で構成されるデータの課題
2章 複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する
2.1 研究目的
2.2 研究手法
2.3 研究結果
1章
多言語で構成されるデータの課題
YouTubeは人々に様々なトピックについてのコンテンツを提供し、楽しませてます。YouTubeデータの分析を行うことはYouTubeで成功する上では大切なのではないでしょうか?
そんな中、YouTube Indiaは現在、数百万人のアクティブユーザーを抱えています。インドには数百万人のYouTubeアクティブユーザーがいることから、YouTubeのデータは膨大なものになります。
インドは非常に多様な国であるため、多くの人々が多言語を話します。人々は2つ以上の言語を混ぜ合わせるコードミックス形式で自分の意見を表現するのです。インドのコードミックス言語のデータはあまり研究されていないため、コードミックス言語に対して分析を行うことが求められています。
そこでアイルランドのS. R. Shahらは、3つのベクトル化方法と複数のアルゴリズムでYouTubeのコメントデータを分析することを試みました。
2章
複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する
まずはS. R. Shahらの研究におけるミッション・手法・結果をまとめます。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。