本文概述了 OW-VISCap 框架,該框架能夠聯合偵測、分割並為影片中已見和未見的物體添加說明文字。本文概述了 OW-VISCap 框架,該框架能夠聯合偵測、分割並為影片中已見和未見的物體添加說明文字。

教導 AI 看見與說話:深入了解 OW‑VISCap 方法

2025/11/04 17:46

摘要和 1. 引言

  1. 相關工作

    2.1 開放世界視頻實例分割

    2.2 密集視頻物體描述和 2.3 物體查詢的對比損失

    2.4 通用視頻理解和 2.5 封閉世界視頻實例分割

  2. 方法

    3.1 概述

    3.2 開放世界物體查詢

    3.3 描述頭

    3.4 查詢間對比損失和 3.5 訓練

  3. 實驗和 4.1 數據集和評估指標

    4.2 主要結果

    4.3 消融研究和 4.4 定性結果

  4. 結論、致謝和參考文獻

\ 補充材料

A. 額外分析

B. 實現細節

C. 局限性

3 方法

給定一個視頻,我們的目標是聯合檢測、分割和描述視頻中存在的物體實例。重要的是,請注意物體實例類別可能不是訓練集的一部分(例如,圖 3(頂行)中顯示的降落傘),將我們的目標置於開放世界設置中。為了實現這一目標,給定的視頻首先被分解成短片段,每個片段由 T 幀組成。每個片段使用我們的方法 OW-VISCap 進行處理。我們在第 4 節討論每個片段結果的合併。

\ 我們在 3.1 節提供 OW-VISCap 處理每個片段的概述。然後我們討論我們的貢獻:(a) 在 3.2 節中引入開放世界物體查詢,(b) 在 3.3 節中使用遮罩注意力進行以物體為中心的描述,以及 (c) 在 3.4 節中使用查詢間對比損失以確保物體查詢彼此不同。在 3.5 節中,我們討論最終的訓練目標。

3.1 概述

\ 開放世界和封閉世界物體查詢都由我們專門設計的描述頭處理,該頭產生以物體為中心的描述,分類頭產生類別標籤,以及檢測頭產生分割掩碼或邊界框。

\

\ 我們引入查詢間對比損失以確保鼓勵物體查詢彼此不同。我們在 3.4 節提供詳細信息。對於封閉世界物體,這種損失有助於消除高度重疊的假陽性。對於開放世界物體,它有助於發現新物體。

\ 最後,我們在 3.5 節提供完整的訓練目標。

\

3.2 開放世界物體查詢

\

\

\ 我們首先使用匈牙利算法[34]通過最小化匹配成本將真實物體與開放世界預測匹配。然後使用最佳匹配計算最終的開放世界損失。

\

\

3.3 描述頭

\

\

3.4 查詢間對比損失

\

\

3.5 訓練

我們的總訓練損失是

\ 表 1:BURST 驗證和測試集上的開放世界跟蹤準確率 (OWTA),適用於所有、常見 (comm.) 和不常見 (unc.) 物體類別。Onl. 指逐幀在線處理。最佳分數以粗體突出顯示,第二佳分數帶有下劃線。

\ 表 2:VidSTG [57] 數據集上的密集視頻物體描述結果。Off. 表示離線方法,onl. 指在線方法。

\

:::info 作者:

(1) Anwesa Choudhuri,伊利諾伊大學厄巴納-香檳分校 (anwesac2@illinois.edu);

(2) Girish Chowdhary,伊利諾伊大學厄巴納-香檳分校 (girishc@illinois.edu);

(3) Alexander G. Schwing,伊利諾伊大學厄巴納-香檳分校 (aschwing@illinois.edu)。

:::


:::info 本論文可在 arxiv 上獲取,根據 CC by 4.0 Deed (Attribution 4.0 International) 許可證。

:::

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章

您可能也會喜歡