This website requires JavaScript.

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.

CCF-A
Ze LiuYutong LinYue Cao ...+4 Baining Guo
international conference on computer vision
arXiv: Computer Vision and Pattern Recognition
Mar 2021
切换摘要原文
本文介绍了一种新的视觉 Transformer,称为 Swin Transformer,它能够充当计算机视觉的通用主干。将Transformer从语言适应到视觉的挑战来自两个领域之间的差异,例如视觉实体的规模变化很大,以及与文本中的单词相比,图像中像素的高分辨率。为了解决这些差异,我们提出了一种分层变换器,其表示是用移位窗口计算的。 shiftwindowing 方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。这种分层架构具有在各种尺度上建模的灵活性,并且具有与图像大小相关的线性计算复杂度。 Swin Transformer 的这些特性使其兼容广泛的视觉任务,包括图像分类(ImageNet-1K 上 86.4 top-1 准确度)和密集预测任务,例如对象检测(COCO 测试上 58.7 box AP 和 51.1 mask AP) dev) 和语义分割(ADE20K val 上为 53.5 mIoU)。它的性能在 COCO 上超过了 +2.7 box AP 和 +2.6 mask AP,在 ADE20K 上超过了 +3.2 mIoU,大大超过了之前的 state-of-the-art,证明了基于 Transformer 的模型作为视觉骨干的潜力。
王朗 摘要翻译能人 十问达人
译文提供者
全部 9 篇译文
图表提取

论文十问由沈向洋博士提出,鼓励大家带着这十个问题去阅读论文,用有用的信息构建认知模型。写出自己的十问回答,还有机会在当前页面展示哦。

  1. Q1
    论文试图解决什么问题?
    胡瀚 优秀作者 2021/11/08

    论文试图提出一种新的基于Transformer的视觉骨干网络(几乎所有计算机视觉任务均需要的基本图像特征提取步骤),希望这一骨干网络能真正超越此前主流的卷积神经网络,成为视觉骨干网络的新主流,从而能和自然语言处理(Transformer是该领域主流骨干网络)有统一的建模。

    薛定谔的猫 2022/01/22

    由于NLP和CV是两个不同的领域,将Transformer从NLP应用到CV遇到的一些问题,如与文本中的单词相比,视觉实体的尺度变化很大以及图像中像素的高分辨率。为了解决这些问题,提出了一种其表征是用移动窗口计算的分层Transformer的方法。
    原文摘要中提到:Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with shifted windows.

    王朗 摘要翻译能人|十问达人 2022/03/20

    论文试图提出一种新的基于Transformer的视觉骨干网络(几乎所有计算机视觉任务均需要的基本图像特征提取步骤),希望这一骨干网络能真正超越此前主流的卷积神经网络,成为视觉骨干网络的新主流,从而能和自然语言处理(Transformer是该领域主流骨干网络)有统一的建模。

  2. Q2
    这是否是一个新的问题?
    胡瀚 优秀作者 2021/11/08

    不是一个新问题。无需卷积,基于Transformer中自注意模块搭建的视觉骨干网络两年前即有研究(以同期的Swin原作者团队做的Local Relation Networks和Transformer原作者团队所做的SASA为相关先驱工作),但是这些工作由于硬件实现不太友好,没有得到主流的关注。最近谷歌的ViT模型,在图像分类上取得了很好的效果,而且运行速度较快,但是不适合于其他密集识别任务。

    薛定谔的猫 2022/01/22

    将NLP中的模型或方法应用到CV中是一个比较新的方向/问题,Transformer在NLP大获成功,是否可以以及如何更好将其用于CV中的分类、检测和分割等任务在当下是一个比较热门的话题。像DETR、Deformable DETR等方法的提出已经表明在NLP大放异彩的Transformer同样可以用于CV领域。现在的关键就是解决如何更好地应用和如何针对CV任务的特点将Transformer进行任务的适应及模型修改、完善等问题。

    王朗 摘要翻译能人|十问达人 2022/03/20

    不是一个新问题。无需卷积,基于Transformer中自注意模块搭建的视觉骨干网络两年前即有研究(以同期的Swin原作者团队做的Local Relation Networks和Transformer原作者团队所做的SASA为相关先驱工作),但是这些工作由于硬件实现不太友好,没有得到主流的关注。最近谷歌的ViT模型,在图像分类上取得了很好的效果,而且运行速度较快,但是不适合于其他密集识别任务。

  3. Q3
    这篇文章要验证一个什么科学假设?
    胡瀚 优秀作者 2021/11/08

    1、Transformer有可能取代传统的卷积网络,成为计算机视觉的新骨干网络;2、由于图像和文本特点的不同,将层次性、局部性和平移不变性等先验引入Transformer网络结构设计能帮助在视觉任务中取得更好的性能。

    王朗 摘要翻译能人|十问达人 2022/03/20

    1、Transformer有可能取代传统的卷积网络,成为计算机视觉的新骨干网络;
    2、由于图像和文本特点的不同,将层次性、局部性和平移不变性等先验引入Transformer网络结构设计能帮助在视觉任务中取得更好的性能。

    张一凡 2022/11/02

    Swin Transformer的效果超越了SOTA,能够很好地成为视觉任务的通用主干。

  4. Q4
    有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
  5. Q5
    论文中提到的解决方案之关键是什么?
  6. Q6
    论文中的实验是如何设计的?
  7. Q7
    用于定量评估的数据集是什么?代码有没有开源?
  8. Q8
    论文中的实验及结果有没有很好地支持需要验证的科学假设?
  9. Q9
    这篇论文到底有什么贡献?
  10. Q10
    下一步呢?有什么工作可以继续深入?
351
被引用
笔记
问答
领域
· Computer Science
· CV
· Object Detection
· Transformer
· Semantic Segmentation
· Swin Transformer
· Vision Transformer