Skip to content

Latest commit

 

History

History
19 lines (15 loc) · 1.81 KB

2312.10103.md

File metadata and controls

19 lines (15 loc) · 1.81 KB

背景

  • 背景
    论文研究了机器视觉和自然语言处理结合的领域,特别聚焦于一个称为指代表达分割(Referring Expression Segmentation,简称RES)的任务,旨在通过语言描述来识别图像中相关的对象,并为这些对象生成掩膜(Mask)。尽管RES在多个领域都有广泛应用潜力,但传统的RES方法存在局限性,它们仅能应对单目标场景,且常忽略描述中不存在于图像中的空目标情况。

  • 已有的工作 之前的方法如LISA被认为在GRES任务中未能够做到表现良好,因为它们无法同时处理多个目标或处理空目标。

核心贡献

  • 提出了一个名为GSVA的方法
    • 挑战1:多目标 当前的MLLMs面临处理多目标和空目标困难的挑战。GSVA通过预测多个[SEG]标记来同时支持多个掩膜引用,解决了多目标问题。
    • 挑战2:空目标 传统的模型在用户描述中提到不存在的目标时,会被迫产生错误的掩膜。GSVA通过预测[REJ]标记来显式地拒绝空目标,从而解决了这个挑战。

实现与部署

通过大量的实验,GSVA展示出了在GRES问题上的有效性。在GRES基准gRefCOCO数据集上,GSVA比LISA以及先前的最先进(State-of-the-Art,简称SOTA)方法有了很大的提升,创造了超过70%的gIoU和cIoU的新纪录,并显示GSVA在经典的RES和指代表达理解(Referring Expression Comprehension,简称REC)任务上也是有竞争力的,实现了几乎80%的cIoU在RES任务上以及90%的Prec@0.5在REC任务上。

总结

论文提出的GSVA方法通过学习预测多个[SEG]标记和创新性地生成[REJ]标记以解决GRES任务中存在的多目标和空目标挑战,相较于现有技术,展现了显著优势。