背景

背景
论文研究了机器视觉和自然语言处理结合的领域，特别聚焦于一个称为指代表达分割（Referring Expression Segmentation，简称RES）的任务，旨在通过语言描述来识别图像中相关的对象，并为这些对象生成掩膜（Mask）。尽管RES在多个领域都有广泛应用潜力，但传统的RES方法存在局限性，它们仅能应对单目标场景，且常忽略描述中不存在于图像中的空目标情况。
已有的工作 之前的方法如LISA被认为在GRES任务中未能够做到表现良好，因为它们无法同时处理多个目标或处理空目标。

核心贡献

提出了一个名为GSVA的方法
- 挑战1：多目标 当前的MLLMs面临处理多目标和空目标困难的挑战。GSVA通过预测多个[SEG]标记来同时支持多个掩膜引用，解决了多目标问题。
- 挑战2：空目标 传统的模型在用户描述中提到不存在的目标时，会被迫产生错误的掩膜。GSVA通过预测[REJ]标记来显式地拒绝空目标，从而解决了这个挑战。

实现与部署

通过大量的实验，GSVA展示出了在GRES问题上的有效性。在GRES基准gRefCOCO数据集上，GSVA比LISA以及先前的最先进（State-of-the-Art，简称SOTA）方法有了很大的提升，创造了超过70%的gIoU和cIoU的新纪录，并显示GSVA在经典的RES和指代表达理解（Referring Expression Comprehension，简称REC）任务上也是有竞争力的，实现了几乎80%的cIoU在RES任务上以及90%的Prec@0.5在REC任务上。

总结

论文提出的GSVA方法通过学习预测多个[SEG]标记和创新性地生成[REJ]标记以解决GRES任务中存在的多目标和空目标挑战，相较于现有技术，展现了显著优势。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2312.10103.md

2312.10103.md

背景

核心贡献

实现与部署

总结

Files

2312.10103.md

Latest commit

History

2312.10103.md

File metadata and controls

背景

核心贡献

实现与部署

总结