MaGGIe dalam penghasilan rambut dan pemisahan contoh pada imej semula jadi adalah cemerlang, mengatasi MGM dan InstMatt dalam senario berbilang contoh yang kompleks.MaGGIe dalam penghasilan rambut dan pemisahan contoh pada imej semula jadi adalah cemerlang, mengatasi MGM dan InstMatt dalam senario berbilang contoh yang kompleks.

Matting Terbimbing Mask yang Teguh: Menguruskan Input Bising dan Kepelbagaian Objek

作者：Hackernoon

来源：Hackernoon

2025/12/21 02:00

阅读时长 4 分钟

MASK$0.4479-1.23%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

链接目录

摘要与 1. 引言

相关工作
MaGGIe

3.1. 高效遮罩引导实例抠图

3.2. 特征-遮罩时间一致性
实例抠图数据集

4.1. 图像实例抠图与 4.2. 视频实例抠图
实验

5.1. 图像数据预训练

5.2. 视频数据训练
讨论与参考文献

\ 补充材料

架构细节
图像抠图

8.1. 数据集生成与准备

8.2. 训练细节

8.3. 定量细节

8.4. 自然图像的更多定性结果
视频抠图

9.1. 数据集生成

9.2. 训练细节

9.3. 定量细节

9.4. 更多定性结果

8.4. 自然图像的更多定性结果

图13展示了我们模型在具有挑战性场景中的表现，特别是在准确渲染头发区域方面。我们的框架在细节保留方面始终优于MGM⋆，尤其是在复杂的实例交互中。与InstMatt相比，我们的模型在模糊区域中表现出更优越的实例分离和细节准确性。

\ 图14和图15说明了我们的模型与先前工作在涉及多个实例的极端情况下的表现。虽然MGM⋆在密集实例场景中在噪声和准确性方面表现不佳，但我们的模型保持了高精度。InstMatt在没有额外训练数据的情况下，在这些复杂设置中显示出局限性。

\ 图16进一步展示了我们遮罩引导方法的稳健性。在这里，我们强调了MGM变体和SparseMat在预测遮罩输入中缺失部分时面临的挑战，而我们的模型解决了这个问题。然而，需要注意的是，我们的模型并非设计为人体实例分割网络。如图17所示，我们的框架遵循输入引导，即使同一遮罩中有多个实例，也能确保精确的alpha遮罩预测。

\ 最后，图12和图11强调了我们模型的泛化能力。该模型准确地从背景中提取人类主体和其他物体，展示了其在各种场景和物体类型中的多功能性。

\ 所有示例均为互联网图像，没有真实值，使用来自r101fpn400e的遮罩作为引导。

\ 图13. 我们的模型在自然图像上生成高度详细的alpha遮罩。我们的结果表明，在没有昂贵计算成本的情况下，它是准确的，并且与之前的实例无关和实例感知方法相当。红色方框放大每个实例的细节区域。(最佳观看效果为彩色和数字缩放)。

\ 图14. 我们的框架在具有许多实例的极端情况下精确分离实例。虽然MGM经常导致实例之间的重叠，MGM⋆包含噪声，但我们的结果与在外部数据集上训练的InstMatt相当。红色箭头表示错误。(最佳观看效果为彩色和数字缩放)。

\ 图15. 我们的框架在单次处理中精确分离实例。所提出的解决方案显示出与InstMatt和MGM相当的结果，而无需运行预测/精炼五次。红色箭头表示错误。(最佳观看效果为彩色和数字缩放)。

\ 图16. 与MGM和SparseMat不同，我们的模型对输入引导遮罩具有稳健性。通过注意力头，我们的模型对遮罩输入产生更稳定的结果，无需像InstMatt那样在实例之间进行复杂的精炼。红色箭头表示错误。(最佳观看效果为彩色和数字缩放)。

\ 图17. 我们的解决方案正确处理多实例遮罩引导。当一个引导遮罩中存在多个实例时，我们仍然为这些实例生成正确的联合alpha遮罩。红色箭头表示红色框中的错误或放大区域。(最佳观看效果为彩色和数字缩放)。

\ 表12. HIM2K+M-HIM2K上定量结果的详细信息(表5的扩展)。灰色表示未重新训练的公共权重。

\ 表12. HIM2K+M-HIM2K上定量结果的详细信息(表5的扩展)。灰色表示未重新训练的公共权重。(续)

\ 表13. 所提出的时间一致性模块在V-HIM60上的有效性(表6的扩展)。双向Conv-GRU和前后融合的组合在三个测试集上实现了最佳整体性能。粗体突出显示每个级别的最佳结果。

:::info 作者：

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com)。

:::

:::info 本论文可在arxiv上获取，采用CC by 4.0 Deed(署名4.0国际)许可证。

:::

市场机遇

Mask Network实时价格 (MASK)

$0.4479

$0.4479$0.4479

-1.19%

USD

Mask Network (MASK) 实时价格图表

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。