西安疫情防控新动态3D传感人工智能技术革新论坛
雷锋网 AI 科技评论按:我们生活在一个三维立体的世界,三维信息的感知也就总是一件有趣的事,三维感知也能带来比平面感知带来更多信息。全民 AR / VR / 立体视觉的热潮虽然暂时过去了,但这个领域的学术研究和学术交流还在持续进行着。
1 月 23 日,学术交流活动「AI 之眼,智见未来——3D 传感人工智能前沿科技论坛」在深圳南山举行。论坛由奥比中光承办,中国自动化学会模式识别与机器智能专委会、中国人工智能学会模式识别专委会主办,指导单位是深圳市南山区科技创新局。论坛邀请了清华大学、浙江大学、国防科技大学、上海交通大学、厦门大学、四川大学、北京航空航天大学等知名大学的7位顶尖专家学者发表主题演讲,分享他们在三维计算机视觉领域的最新科研成果,也给参会的各知名 AI 企业的技术骨干、科研机构重要研发人员、相关专业的高校学生等提供了一个交流讨论的机会。参会专家合影留念论坛承办方奥比中光是深圳的一家致力于开发3D 感知技术解决方案的大型企业,其产品如OPPO Find X手机上的三维人脸识别模组正是来自该公司。
借助此次会议平台,对话不仅限于理论探讨,还包括对各大企业及科研机构现有项目实践经验和未来的发展方向进行深入了解。此外,由于疫情影响,本次活动采用线上线下相结合方式进行,为广大专业人士提供了一场难得的人才展示与知识分享盛宴。
以下为七个报告概述:
从左至右:肖振中(奥比中光联合创始人CTO)、张汉国(深圳市南山区科协常务)、贾伟(中国自动化学会模式识别与机器智能专委会副秘书长)
开幕致辞由肖振中先生、高级工程师贾伟博士以及张汉国先生共同完成,他们预祝本次高峰论坛圆满成功。
刘烨斌 - 「动态重建技术前沿」
刘烨斌教授首先介绍了动态重建课题中的基本概念。在动态重建过程中,我们需要捕捉到物体或人物的地形纹理,以及它们运动的情况;这些运动包括地形表面的变换以及内部骨架结构移动。他强调,这项技术对于应用非常关键,如全息通信与直播、三维虚拟试衣室等,它们都依赖于精确而迅速地重构目标物体或者场景图像。
他进一步解释说,将模型建立起来需要核心技能,即实时深度数据采集和处理。这涉及到输入不同数据,可以分为单视角模型构建和多视角模型构建两种方法,每种方法都具有不同的基础应用。他提到了自从十几年前开始,他一直致力于这一领域,并且研究过单一视角点云求取点云,以及基于三个相机阵列利用多摄像头系统来实现复杂几何拓扑形状恢复的问题。
六个主要目标被提出:
精准重建
规模采集
便捷获取
实时计算
语义建模
真实生成
精准重建要求大量高精度数据采集,而规模采集则面临处理交叠区域的问题,如紧密接触的人类行为。而实际上,这些需求限制了其实际应用范围。通过多红外相机实现实时融合可以克服拓扑变化问题,而单深度相机无法支持快速运动或拓扑变化的情况。但是,如果使用单深度相机关实现,则可以支持自由视角视频录制,并且无需任何先验约束,只要没有物理碰撞即可获得良好效果。
最后,他提出了未来工作计划,其中包含从单个摄像头扫描静态模型并追踪动作以进行重新建设,以及通过学习图像深度恢复身体类型,同时同步恢复纹理特征,以提高效率和真实性。此外,他还谈到了如何将衣服独立分析,然后加入物理仿真,使之能够保持高度真实性并适应各种环境条件,从而使对象更易移植。
卢策吾 - 「Behavior Understanding meets 3D Representation」
卢策吾教授讲座主要集中在两个方面:一方面是关于行为理解,一方面则是在这两个方向上的近期工作简介。
他首先阐述了关于三维表征的一些基本框架,比如PointNet,它是一个常用的点云表示法,但它不能编码不同点之间关系。这导致出现临近点表征问题,比如PointNet 和 PointCNN 各自设计不同的处理思路但也有不足之处。
为了克服这些限制,他们提出一种新的表示法SIFT 算子引入,该算子保留尺度不变性和空间方向编码能力,因此他们提出了PointSIFT作为一种多尺度表征方式,有着优异表现。
网络架构设计采用类似U-net结构,以尺寸先减少后增加形式设计网络,在其中具备自动选择尺寸能力,可以根据不同的任务选择不同的模块设计。
对于旋转不变性的表现,他们指出PointNet++ 通常表现良好,但对旋转或未见过角度就效果差,因为它没有考虑旋转不变性。当寻找点之间对应关系时,不同对应关系并不具有旋转不变性,因此可能遇到挑战。在这种情况下,他们希望找到一种新的方法去改善这种性能缺陷,以达到更好的结果。