AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,117件) 短信(811件) 🔒 論文(55,470件) 🔒

Microsoftの画像セグメンテーション新技術「SEEM（Segment Everything Everywhere Model）」の凄さ、Meta AIのSAMとの違い

2023.04.192025.03.08

近年、画像セグメンテーション技術は、その発展に伴いさまざまな分野で活用されています（そもそもセグメンテーションとは何か？については最初のセクションで紹介します）。一方で、従来の手法では柔軟性に限界がありました。本記事では、新たな画像セグメンテーション技術「SEEM（Segment Everything Everywhere All at Once）」について、その特徴や応用事例を紹介します。

セクション数が多く長い記事に思えますが、工夫を凝らして読みやすくしていますので、ぜひお気軽にご覧ください。

そもそもセグメンテーションとは

セグメンテーションとは、画像処理やコンピュータビジョンの分野で用いられる技術であり、画像内の各ピクセルに対して、それが属する物体やクラスにラベルを割り当てることを目的としています。要するに、「画像の中に何が写っているか」を認識するテクノロジーです。セグメンテーションは画像からの情報抽出や解析が容易に行えるため、さまざまなアプリケーションで利用されています。

セグメンテーションには、主に以下の2つのタイプがあります。

セマンティックセグメンテーション：
セマンティックセグメンテーションでは、画像内の各ピクセルに対して、所属する物体クラス（例：人、犬、車）のラベルが割り当てられます。このタイプのセグメンテーションでは、同じクラスの物体が複数存在する場合でも、それらは区別されずに同一のラベルが割り当てられます。

インスタンスセグメンテーション：
インスタンスセグメンテーションでは、画像内の各ピクセルに対して、所属する個別の物体インスタンス（例：人1、人2、犬1）のラベルが割り当てられます。このタイプのセグメンテーションでは、同じクラスの物体が複数存在する場合でも、それぞれ異なるラベルが割り当てられます。

セグメンテーション技術は、過去数十年間で大きく進化しました。古典的な画像処理手法から始まり、近年ではディープラーニングを利用した手法が主流となっています。ディープラーニングを用いたセグメンテーション手法は、高い精度で物体の境界を検出することができるため、自動運転、医療画像解析、ロボティクス、ビデオ編集など、幅広い分野で活用されています。

SEEMの概要

今回新たにMicrosoftが発表した「SEEM」は、さまざまなタイプのプロンプト（クリック、ボックス、ポリゴン、スクリブル、テキスト、参照画像など）を用いて、一つのモデルで画像セグメンテーションを行うことができる技術です。この技術は、大規模言語モデル（LLM）にインスパイアされた、ユニバーサルでインタラクティブなマルチモーダルインターフェイスを提供します。

SEEMの特徴

SEEMは以下の4つの特徴を持っています。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
AI検索（公開記事が対象）
PDF翻訳・パーソナライズなど各機能のお試し利用

プレミアム会員の特典

1,000本以上の全過去記事を無制限閲覧
論文ベースの深掘り解説を毎日更新で購読
AI検索の対象が短信・論文（5万本以上）まで拡大
記事で取り上げた論文にその場でAIに質問
論文から生まれたエージェントスキルライブラリ
PDF翻訳・PDF変換をフル活用
あなた専用の論文・記事おすすめが毎日届く

まずはアカウントを作成

ログイン

プレミアム会員について

Microsoftの画像セグメンテーション新技術「SEEM（Segment Everything Everywhere Model）」の凄さ、Meta AIのSAMとの違い

そもそもセグメンテーションとは

SEEMの概要

SEEMの特徴

記事検索

こちらもどうぞ

🔒 大規模言語モデル（LLM）のこれまでとこれから②　-モデル構築編-

🔒 GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果

そもそもセグメンテーションとは

SEEMの概要

SEEMの特徴

記事検索

こちらもどうぞ

🔒 大規模言語モデル（LLM）のこれまでとこれから② -モデル構築編-

🔒 GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果

🔒 大規模言語モデル（LLM）のこれまでとこれから②　-モデル構築編-