最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

Microsoftの画像セグメンテーション新技術「SEEM(Segment Everything Everywhere Model)」の凄さ、Meta AIのSAMとの違い

2023.04.19
深堀り解説

近年、画像セグメンテーション技術は、その発展に伴いさまざまな分野で活用されています(そもそもセグメンテーションとは何か?については最初のセクションで紹介します)。一方で、従来の手法では柔軟性に限界がありました。本記事では、新たな画像セグメンテーション技術「SEEM(Segment Everything Everywhere All at Once)」について、その特徴や応用事例を紹介します。

セクション数が多く長い記事に思えますが、工夫を凝らして読みやすくしていますので、ぜひお気軽にご覧ください。

目次

そもそもセグメンテーションとは

セグメンテーションとは、画像処理やコンピュータビジョンの分野で用いられる技術であり、画像内の各ピクセルに対して、それが属する物体やクラスにラベルを割り当てることを目的としています。要するに、「画像の中に何が写っているか」を認識するテクノロジーです。セグメンテーションは画像からの情報抽出や解析が容易に行えるため、さまざまなアプリケーションで利用されています。

セグメンテーションには、主に以下の2つのタイプがあります。

  1. セマンティックセグメンテーション
    セマンティックセグメンテーションでは、画像内の各ピクセルに対して、所属する物体クラス(例:人、犬、車)のラベルが割り当てられます。このタイプのセグメンテーションでは、同じクラスの物体が複数存在する場合でも、それらは区別されずに同一のラベルが割り当てられます。
  2. インスタンスセグメンテーション
    インスタンスセグメンテーションでは、画像内の各ピクセルに対して、所属する個別の物体インスタンス(例:人1、人2、犬1)のラベルが割り当てられます。このタイプのセグメンテーションでは、同じクラスの物体が複数存在する場合でも、それぞれ異なるラベルが割り当てられます。

セグメンテーション技術は、過去数十年間で大きく進化しました。古典的な画像処理手法から始まり、近年ではディープラーニングを利用した手法が主流となっています。ディープラーニングを用いたセグメンテーション手法は、高い精度で物体の境界を検出することができるため、自動運転、医療画像解析、ロボティクス、ビデオ編集など、幅広い分野で活用されています。

SEEMの概要

今回新たにMicrosoftが発表した「SEEM」は、さまざまなタイプのプロンプト(クリック、ボックス、ポリゴン、スクリブル、テキスト、参照画像など)を用いて、一つのモデルで画像セグメンテーションを行うことができる技術です。この技術は、大規模言語モデル(LLM)にインスパイアされた、ユニバーサルでインタラクティブなマルチモーダルインターフェイスを提供します。

SEEMの特徴

SEEMは以下の4つの特徴を持っています。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事