论文十问由沈向洋博士提出,鼓励大家带着这十个问题去阅读论文,用有用的信息构建认知模型。写出自己的十问回答,还有机会在当前页面展示哦。
- Q1论文试图解决什么问题?
论文试图提出一种新的基于Transformer的视觉骨干网络(几乎所有计算机视觉任务均需要的基本图像特征提取步骤),希望这一骨干网络能真正超越此前主流的卷积神经网络,成为视觉骨干网络的新主流,从而能和自然语言处理(Transformer是该领域主流骨干网络)有统一的建模。
由于NLP和CV是两个不同的领域,将Transformer从NLP应用到CV遇到的一些问题,如与文本中的单词相比,视觉实体的尺度变化很大以及图像中像素的高分辨率。为了解决这些问题,提出了一种其表征是用移动窗口计算的分层Transformer的方法。
原文摘要中提到:Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with shifted windows.论文试图提出一种新的基于Transformer的视觉骨干网络(几乎所有计算机视觉任务均需要的基本图像特征提取步骤),希望这一骨干网络能真正超越此前主流的卷积神经网络,成为视觉骨干网络的新主流,从而能和自然语言处理(Transformer是该领域主流骨干网络)有统一的建模。
- Q2这是否是一个新的问题?
不是一个新问题。无需卷积,基于Transformer中自注意模块搭建的视觉骨干网络两年前即有研究(以同期的Swin原作者团队做的Local Relation Networks和Transformer原作者团队所做的SASA为相关先驱工作),但是这些工作由于硬件实现不太友好,没有得到主流的关注。最近谷歌的ViT模型,在图像分类上取得了很好的效果,而且运行速度较快,但是不适合于其他密集识别任务。
将NLP中的模型或方法应用到CV中是一个比较新的方向/问题,Transformer在NLP大获成功,是否可以以及如何更好将其用于CV中的分类、检测和分割等任务在当下是一个比较热门的话题。像DETR、Deformable DETR等方法的提出已经表明在NLP大放异彩的Transformer同样可以用于CV领域。现在的关键就是解决如何更好地应用和如何针对CV任务的特点将Transformer进行任务的适应及模型修改、完善等问题。
不是一个新问题。无需卷积,基于Transformer中自注意模块搭建的视觉骨干网络两年前即有研究(以同期的Swin原作者团队做的Local Relation Networks和Transformer原作者团队所做的SASA为相关先驱工作),但是这些工作由于硬件实现不太友好,没有得到主流的关注。最近谷歌的ViT模型,在图像分类上取得了很好的效果,而且运行速度较快,但是不适合于其他密集识别任务。
- Q3这篇文章要验证一个什么科学假设?
1、Transformer有可能取代传统的卷积网络,成为计算机视觉的新骨干网络;2、由于图像和文本特点的不同,将层次性、局部性和平移不变性等先验引入Transformer网络结构设计能帮助在视觉任务中取得更好的性能。
1、Transformer有可能取代传统的卷积网络,成为计算机视觉的新骨干网络;
2、由于图像和文本特点的不同,将层次性、局部性和平移不变性等先验引入Transformer网络结构设计能帮助在视觉任务中取得更好的性能。Swin Transformer的效果超越了SOTA,能够很好地成为视觉任务的通用主干。
- Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
- Q5论文中提到的解决方案之关键是什么?
- Q6论文中的实验是如何设计的?
- Q7用于定量评估的数据集是什么?代码有没有开源?
- Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
- Q9这篇论文到底有什么贡献?
- Q10下一步呢?有什么工作可以继续深入?