「YouTubeのコメントを分析!」現場にコミットする機械学習ノート【vol.18】

   

こんにちは。エンジニアライターの小原です。

連載「現場にコミットする機械学習ノート」では、論文を詳しく読み解きながら、現場で使えるAI実装のヒントを記録していきたいと思います。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



前回の記事では、「AIで噴火を検出」を扱いました。

今回は、アイルランドの
School of Computing, Dublin Business School,のS. R. Shahらが2020年3月に発表した「YouTubeのコメントを複数の手法で分析」に関する論文を扱っていきます。

もくじ
1章 多言語で構成されるデータの課題
2章 複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する
2.1 研究目的
2.2 研究手法
2.3 研究結果

■前回の記事:【vol.17】 AIで噴火を検出

1章
多言語で構成されるデータの課題

YouTubeは人々に様々なトピックについてのコンテンツを提供し、楽しませてます。YouTubeデータの分析を行うことはYouTubeで成功する上では大切なのではないでしょうか?
そんな中、YouTube Indiaは現在、数百万人のアクティブユーザーを抱えています。インドには数百万人のYouTubeアクティブユーザーがいることから、YouTubeのデータは膨大なものになります。

インドは非常に多様な国であるため、多くの人々が多言語を話します。人々は2つ以上の言語を混ぜ合わせるコードミックス形式で自分の意見を表現するのです。インドのコードミックス言語のデータはあまり研究されていないため、コードミックス言語に対して分析を行うことが求められています。

そこでアイルランドのS. R. Shahらは、3つのベクトル化方法と複数のアルゴリズムでYouTubeのコメントデータを分析することを試みました。

2章
複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する

まずはS. R. Shahらの研究におけるミッション・手法・結果をまとめます。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP