この記事は「PY - PARTY TECH STUDIO Advent Calendar 2025」の22日目の記事です。


1. はじめに

2025年11月、Meta AIがSAM3(Segment Anything Model 3)を発表しました。SAM3は画像・動画の両方に対応した統合セグメンテーションモデルで、テキストプロンプトを入力するだけで対象物を検出・追跡できます。

SAM 3

SAM3の主要な特徴

特徴 説明
テキストプロンプト対応 「person」「car」などのテキストで検出対象を指定
画像・動画両対応 静止画のセグメンテーションと動画のオブジェクト追跡
Memory Mechanism フレーム間でオブジェクトIDを維持する独自機構

シンプルに言うと、プロンプトを入力するだけで、objectの検出、追跡がリアルタイム可能になります。

AirPods、とプロンプトを入力

125.mp4


2. 開発環境構築