تتفوق MaGGIe في عرض الشعر وفصل الحالات على الصور الطبيعية، متفوقة على MGM وInstMatt في السيناريوهات المعقدة متعددة الحالات.تتفوق MaGGIe في عرض الشعر وفصل الحالات على الصور الطبيعية، متفوقة على MGM وInstMatt في السيناريوهات المعقدة متعددة الحالات.

التحديد الدقيق الموجه بالأقنعة: إدارة المدخلات المشوشة وتعدد استخدامات الكائنات

نبذة مختصرة و 1. مقدمة

  1. الأعمال ذات الصلة

  2. MaGGIe

    3.1. Matting موجه بقناع فعال للحالة

    3.2. الاتساق الزمني لخصائص Matte

  3. مجموعات بيانات Instance Matting

    4.1. Image Instance Matting و 4.2. Video Instance Matting

  4. التجارب

    5.1. التدريب المسبق على بيانات الصور

    5.2. التدريب على بيانات الفيديو

  5. المناقشة والمراجع

\ مواد تكميلية

  1. تفاصيل البنية المعمارية

  2. Image matting

    8.1. توليد مجموعة البيانات والتحضير

    8.2. تفاصيل التدريب

    8.3. التفاصيل الكمية

    8.4. المزيد من النتائج النوعية على الصور الطبيعية

  3. Video matting

    9.1. توليد مجموعة البيانات

    9.2. تفاصيل التدريب

    9.3. التفاصيل الكمية

    9.4. المزيد من النتائج النوعية

8.4. المزيد من النتائج النوعية على الصور الطبيعية

يعرض الشكل 13 أداء نموذجنا في سيناريوهات صعبة، خاصة في عرض مناطق الشعر بدقة. يتفوق إطار عملنا باستمرار على MGM⋆ في الحفاظ على التفاصيل، خاصة في تفاعلات الحالات المعقدة. بالمقارنة مع InstMatt، يُظهر نموذجنا فصلاً متفوقاً للحالات ودقة في التفاصيل في المناطق الغامضة.

\ يوضح الشكل 14 والشكل 15 أداء نموذجنا والأعمال السابقة في حالات قصوى تتضمن حالات متعددة. بينما يواجه MGM⋆ صعوبة مع الضوضاء والدقة في سيناريوهات الحالات الكثيفة، يحافظ نموذجنا على دقة عالية. يُظهر InstMatt، بدون بيانات تدريب إضافية، قيوداً في هذه الإعدادات المعقدة.

\ يتم إثبات قوة نهجنا الموجه بالقناع بشكل أكبر في الشكل 16. هنا، نسلط الضوء على التحديات التي تواجهها متغيرات MGM و SparseMat في التنبؤ بالأجزاء المفقودة في مدخلات القناع، والتي يعالجها نموذجنا. ومع ذلك، من المهم ملاحظة أن نموذجنا غير مصمم كشبكة تقسيم حالات بشرية. كما هو موضح في الشكل 17، يلتزم إطار عملنا بالتوجيه المُدخَل، مما يضمن التنبؤ الدقيق لـ alpha matte حتى مع وجود حالات متعددة في نفس القناع.

\ أخيراً، يؤكد الشكل 12 والشكل 11 على قدرات التعميم لنموذجنا. يستخرج النموذج بدقة كلاً من الأشخاص والأشياء الأخرى من الخلفيات، مما يعرض تنوعه عبر سيناريوهات وأنواع كائنات مختلفة.

\ جميع الأمثلة هي صور من الإنترنت بدون بيانات أساسية حقيقية ويُستخدم القناع من r101fpn400e كتوجيه.

\ الشكل 13. ينتج نموذجنا alpha matte شديد التفصيل على الصور الطبيعية. تظهر نتائجنا أنها دقيقة وقابلة للمقارنة مع الطرق السابقة غير المدركة للحالة والمدركة للحالة دون تكاليف حسابية باهظة. تُقرب المربعات الحمراء مناطق التفاصيل لكل حالة. (يُفضل العرض بالألوان والتكبير الرقمي).

\ الشكل 14. تفصل أطر عملنا الحالات بدقة في حالة قصوى مع العديد من الحالات. بينما يتسبب MGM غالباً في التداخل بين الحالات ويحتوي MGM⋆ على ضوضاء، ينتج نموذجنا نتائج مماثلة لـ InstMatt المدرب على مجموعة البيانات الخارجية. يشير السهم الأحمر إلى الأخطاء. (يُفضل العرض بالألوان والتكبير الرقمي).

\ الشكل 15. تفصل أطر عملنا الحالات بدقة في تمريرة واحدة. يُظهر الحل المقترح نتائج قابلة للمقارنة مع InstMatt و MGM دون تشغيل التنبؤ/التحسين خمس مرات. يشير السهم الأحمر إلى الأخطاء. (يُفضل العرض بالألوان والتكبير الرقمي).

\ الشكل 16. على عكس MGM و SparseMat، نموذجنا قوي لقناع التوجيه المُدخَل. مع رأس الانتباه، ينتج نموذجنا نتائج أكثر استقراراً لمدخلات القناع دون تحسين معقد بين الحالات مثل InstMatt. يشير السهم الأحمر إلى الأخطاء. (يُفضل العرض بالألوان والتكبير الرقمي).

\ الشكل 17. يعمل حلنا بشكل صحيح مع توجيهات أقنعة متعددة الحالات. عندما توجد حالات متعددة في قناع توجيه واحد، ما زلنا ننتج alpha matte الاتحاد الصحيح لتلك الحالات. يشير السهم الأحمر إلى الأخطاء أو منطقة التكبير في المربع الأحمر. (يُفضل العرض بالألوان والتكبير الرقمي).

\ الجدول 12. تفاصيل النتائج الكمية على HIM2K+M-HIM2K (امتداد للجدول 5). يشير اللون الرمادي إلى الوزن العام بدون إعادة تدريب.

\ الجدول 12. تفاصيل النتائج الكمية على HIM2K+M-HIM2K (امتداد للجدول 5). يشير اللون الرمادي إلى الوزن العام بدون إعادة تدريب. (تابع)

\ الجدول 12. تفاصيل النتائج الكمية على HIM2K+M-HIM2K (امتداد للجدول 5). يشير اللون الرمادي إلى الوزن العام بدون إعادة تدريب. (تابع)

\ الجدول 12. تفاصيل النتائج الكمية على HIM2K+M-HIM2K (امتداد للجدول 5). يشير اللون الرمادي إلى الوزن العام بدون إعادة تدريب. (تابع)

\ الجدول 13. فعالية وحدات الاتساق الزمني المقترحة على V-HIM60 (امتداد للجدول 6). يحقق الجمع بين Conv-GRU ثنائي الاتجاه والدمج الأمامي-الخلفي أفضل أداء إجمالي على مجموعات الاختبار الثلاث. يبرز الخط العريض الأفضل لكل مستوى.

\

:::info المؤلفون:

(1) Chuong Huynh، جامعة ميريلاند، كوليدج بارك (chuonghm@cs.umd.edu)؛

(2) Seoung Wug Oh، Adobe Research (seoh,jolee@adobe.com)؛

(3) Abhinav Shrivastava، جامعة ميريلاند، كوليدج بارك (abhinav@cs.umd.edu)؛

(4) Joon-Young Lee، Adobe Research (jolee@adobe.com).

:::


:::info هذه الورقة متاحة على arxiv بموجب ترخيص CC by 4.0 Deed (Attribution 4.0 International).

:::

\

فرصة السوق
شعار Mask Network
Mask Network السعر(MASK)
$0.5744
$0.5744$0.5744
+0.17%
USD
مخطط أسعار Mask Network (MASK) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.