论文十问由沈向洋博士提出,鼓励大家带着这十个问题去阅读论文,用有用的信息构建认知模型。写出自己的十问回答,还有机会在当前页面展示哦。
- Q1论文试图解决什么问题?
PIFu, PIFuHD, PaMIR, ARCH, ARCH++,当下市面上这些主流的,基于单张图像,使用隐式方程(implicit function),进行三维穿衣人体重建的算法,虽然在站立/时装姿势下表现不错,但对于较难的人体姿态,比如舞蹈,运动,功夫,跑酷等,泛化性和鲁棒性极差,而单纯的对训练数据进行增广,费钱费卡,提升还很有限。
所以,能不能用很少一点数据,就训练出对人体姿态足够鲁棒的模型呢?
另外,随着NASA, SCANimate, SNARF, MetaAvatar, Neural-GIF等一系列工作爆发,如何从动态的三维人体扫描中学出来一个可以被驱动的用神经网络表达的数字人(animatable neural avatar)渐渐成为一个研究热点,但高质量的动态人体扫描的获得,费钱费人工,导致普通用户或者没有多视角采集设备的团队很难进入这个领域。
所以,有没有可能直接从单目图像视频中去采集高质量的三维人体模型,直接扔进这些已有的框架,然后拿到质量尚可的可驱动数字人呢?
针对这两个问题,我们提出了ICON。
- Q2这是否是一个新的问题?
是,也不是。人体重建是个老问题了,从动态三维扫描中学一个可驱动数字人也是个老问题,但怎么把基于图像的人体重建的质量,提升到可以和动态三维扫描相媲美,从而让两类方法可以顺利嫁接,这个据我所知,没有发表的论文讨论过。
- Q3这篇文章要验证一个什么科学假设?
强模型先验(SMPL prior)和几何表达的自由(model-free representation)是可以找到一个平衡点的。
- Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
- Q5论文中提到的解决方案之关键是什么?
- Q6论文中的实验是如何设计的?
- Q7用于定量评估的数据集是什么?代码有没有开源?
- Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
- Q9这篇论文到底有什么贡献?
- Q10下一步呢?有什么工作可以继续深入?