![](/static-img/y1rdXvx4Vkl4rKJeg7HzfZwzNIZuQvx57-wDpRu0QM5QBKE9jP6hYGosE_CfDO56.png)
万古神帝最新资讯探秘VL智能的深度世界任务与表征学习的大型模型篇
编译丨Jocelyn编辑丨陈彩娴
本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段:
第一个阶段是2014-2018年,其间,专门的模型被设计用于不同的任务。第二个时代是2019-2021年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着2021年CLIP的出现,第三个时始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。
我们相信这篇综述将有助于人工智能(AI)和机器学习(ML)的研究人员和实践者,特别是那些对计算机视觉和自然语言处理感兴趣的人。
论文地址:https://arxiv.org/pdf/2203.01922.pdf
研究背景计算机视觉(CV)和自然语言处理(NLP)是人工智能的两大分支,它们专注于在视觉和语言上模拟人类智能。在过去的十年中,深度学习极大地推进了单模态学习在这两个领域的发展,并在一系列任务上取得了先进的成果。深度学习显著进步的核心在于GPU的大规模并行计算能力以及大规模数据集如ImageNet、COCO等资源丰富的情况,这些加速了深度学习模型的大规模训练。
随着深度学习技术不断成熟,我们也看到了一系列功能强大的神经网络架构产生,如LeNet、AlexNet、ResNet等,它们逐渐超越传统的人工特征工程方法,以图像识别为例,一次性从原始图像到高级语义表示。
另一个主要突破是在NLP领域,由RNN演变而来的Transformer结构,它采用自注意力机制来捕捉长距离依赖关系,使得处理序列化数据变得更加有效率。
虽然我们已经取得了一定的成绩,但现实问题往往涉及多模态的情景,比如自动驾驶车辆需要同时理解道路状况、交通信号以及司机指令。这促使人们开始关注如何融合不同类型信息,以及如何利用多模态信息提升单一模式下的表现。
为了解决这些挑战,我们提出了多种方法,如早期工作中的CNN-RNN结合,或后续工作中的BERT-VL相结合,这些方法都试图跨越语境边界,将不同类型信息整合起来,以达到更好的效果。
然而,由于缺乏足够数量且质量较高的人类标注数据,大规模应用仍然面临巨大挑战。不过近期的一些创新思路,如使用对比式损失函数或者通过爬网获取大量无监督数据,有望开辟新的可能性,让我们期待未来能看到更多关于该领域新进展的心智分享与讨论。
![](/static-img/_BPRbf86Cx4H8UD2rrzEuqt1Ul5DcnFhuthPkreURPGO2mvRaFDVG83GcDRDnuGB.jpg)