社会     

cv断离 Transformer在CV领域有可能替代CNN吗?

2022-02-23 21:01社会

目前我们仍然看到,很大一部分工作是将变压器与现有的CNN工作相结合。例如,ViT实际上有一个混合架构。

然而,对于检测和分割的问题,CNN方法已经非常成熟,很难马上用变压器代替。目前的工作是CNN和transformer的混合,有速度和效果的双重考虑。

此外,还需要考虑的是,如果输入分辨率较大的图像,变压器会有较大的计算量,所以ViT的输入不是像素,而是一个小补丁。对于DETR来说,其变压器编码器的输入是1/32,这有计算量的考虑,但它必须有效果,所以有改进工作deform DETR。

短期来看,CNN和变压器应该齐头并进。最新的论文《重新思考基于变压器的目标检测集合预测》将现有的CNN检测模型与变压器的思想相结合,以获得比DETR更好的结果:

我想到了神经网络的本质:一个适合你问题的复杂非线性系统。无论是CNN、RNN还是变形金刚,都只是对问题的一种拟合,没有优劣之分。

就一个有限的问题而言,可能会有高低之分,但我相信随着数据量的增加,问题的效果最终可能取决于模型的计算量和参数,而不是它是哪个模型,因为之前的工作已经证明,三层神经网络可以逼近任何非线性函数,前提是参数足够大,更重要的是,你找到了一个好的训练方法。

虽然未来很难说,但还是可以期待的!

原始链接:

点击展开全文