您的位置: 主页 > VR2048 > AI从视频中学习这个世界 | VR2048

AI从视频中学习这个世界 | VR2048

时间: 2017-06-27阅读:

↑ 点击上方“VR2048”关注我们


加拿大 AI 初创公司TwentyBN 建立了一种通过视觉了解世界的AI系统。近日。TwentyBN 发布了两个用于教会机器视觉常识的大型视频数据集(256,591个视频)。第一个数据集让机器对物理世界中发生的基本动作进行细粒度的理解。第二个数据集由动态手势组成,可以用于构建人机交互的强大认知模型。欲了解更多信息,请访问我们的数据集网页、或查看研究报告或联系我们。



我们数据集里的示例视频


视频无所不在

 

视频在我们的生活中的作用越来越重要。人们每天在YouTube、Facebook或Snapchat等服务上观看和分享视频上耗时达数亿小时。我们不是忙着在社交媒体上播放视频,就是用智能手机、GoPro相机和(即将到来的)AR护目镜制作更多的视频。随着越来越多的人采用视频格式记录自己的生活,我们的记录形式也正在从平面图片(静像形象)转变为动态视频。



不过,所有这一切都只是开始。未来几年,连接设备将会不断增多,从智能产品到永远在线的家用摄像机,再到自主车辆。许多这种设备将依靠摄像机来完成了解和感知世界的感官输入。随着技术不断进步,视频智能将至关重要。显然,世界上没有足够的人工来处理所有的视频数据,而人类的视觉理解并没有扩大。我们需要的是一个可以从视频中分析和提取意义的软件层。这就需要能理解物理世界的学习算法以及人类活动的无数视频资料。

 

视频是计算机视觉的下一个前沿


深度学习近年来取得了历史性的进步,能制作在某些情况下能与人类媲美,甚至超越人类表现的系统,能识别静止图像中的对象。尽管如此,使计算机理解视频里的空间和时间方面仍然是尚未解决的问题。原因就是其复杂性。虽然照片只是一个静态图像,但视频显示的是运动中的叙述。视频需要耗时做手动注释,并且存储和处理的计算很昂贵。

 

神经网络对复杂场景展开基本推理的主要障碍是:他们对物理世界缺乏常识。视频数据包含世界的大量细粒度的信息,因为它展示的是对象如何根据其属性展开活动。例如,视频隐含地编码物理信息,如三维几何、材料属性、物品持久性、可承受性或重力。虽然我们人类直观地掌握了这些概念,但人造智能(AI)和机器人技术的当前应用中在很大程度上仍然缺少对物理世界的详细了解。


(图片来源:Karpathy&Fei-Fei)


现有的计算机视觉系统只有些对世界不完全的描述。以下是由一个模型生成的几个例子,该模型生成了图像的自然语言描述。


TwentyBN认为想要制作AI在现实生活中最有用的应用程序,处理视频的智能软件是先决条件。我们很心水的一个应用程序领域是医疗保健,特别是老年护理方面。对于老年人来说,基础生活活动(ADL)的变化往往发生在生理变化之前,ADL的变化可以预测不良的临床结果。想象一下,如果可以在固定的地点安装少量的智能相机设备,监控老年人的活动变化,帮助他们的记忆,并最终提高他们的健康,我们是不是就可以改善对老年人的照顾呢?

 

为了制作这些应用,我们需要一个技术步骤的改变。我们需要能够理解视觉场景中发生的上下文和动作的系统。最先进的图像识别不能胜任。这是因为生活不仅仅是一系列的快照图片,此外,感知世界也不仅仅是识别图像中的猫和狗。生活是关于:随着时间的推移,在物理世界中实际发生的事情。生活是动词,不仅仅是名词。

 

一种新颖的视频理解方法


阻碍视频理解向前发展的最主要的限制因素之一就是缺乏大型、多样化的现实世界的视频数据集。迄今为止所发布的许多视频数据集有很多缺点:它们往往是弱标签、缺乏多样性,或着做过高度编辑和后处理。不过,不过也有例外,像DeepMind最近发布的Kinetics数据集就在尝试通过较短的视频剪辑来缓和这个缺点,但是由于它们显示的是从YouTube视频中获取的高水平人类活动,所以他们不能充当用于建模视觉常识的最简单的物理交互对象。

 

过去的一年,TwentyBN建立了一个用以理解身体行为基础数据层。TwentyBN的方法是基于一个单一而直截了当的想法:为什么不利用人类令人惊奇的精确和培养的运动技能来生成细粒度的、复杂且多样化的数据呢?毕竟,我们日常观察到的绝大多数运动模式实际上是由其他人造成的。


为了生成神经网络学习需要的复杂标签视频,我们使用了我们命名的“人群行动”。我们指导群众工作人员根据仔细预定义和高度具体的描述来记录短视频剪辑。例如,“将东西推到桌子下方”,“移动物体A靠近物体B”或“滑动左手的两根手指”。虽然我们收集了许多不同类型的人类行为的数据,但是我们很自然地强调使用一只手或双手灵巧地操纵物体。这是因为我们的手最适合生成训练网络所需的高度控制且复杂的运动模式。不用刻意地标注现有的视频数据,人群行为使我们能够以低成本生成大量密集标注的有意义的视频片段。

 

今天,我们很高兴地宣布,从数据收集活动中发布两个具有实质意义的快照:人类对象交互数据库(Something-something)和世界上最大的视频数据集,用于分类动态手势(Jester)。这两个数据集都是“快照”,因为数据收集是一个持续的过程。总共,我们正在发布256,591个标签视频剪辑,用于深入学习模式的监督培训。这两个数据集都是根据知识共享署名4.0国际许可(CC BY-NC-ND 4.0)标准提供,可免费用于学术用途。如果想获得我们的数据集的商业用途许可,请联系我们。

 

1、“Something-something”数据集


此快照包含108,499个带注释的视频剪辑,每个片段的持续时间为2到6秒。这些视频展示了175个课程中的对象和动作。字幕是基于模板的文本描述,例如“将东西放入某物”。模板包含 “something” 作为占位符对象的插槽。这为网络的文本到视频编码额外提供了结构,以改善学习。



该数据集的目标不仅是检测或跟踪视频中的对象,而且可以破译人类行为者的行为以及与其交互的对象的直接和间接操纵。因此,从视频中预测文字标签需要强大的视觉特征,能够代表物体和世界的丰富的物理特性。这包括有关属性的信息,如空间关系和材料属性。

 

2.“Jester”数据集


此快照包含148,092个注释视频剪辑,每个长度约3秒。这些视频涵盖了25种人类手势以及两个“无手势”课程,以帮助网络区分特定的手势和未知的手部动作。视频显示人类演员在网络摄像机前表演通用手势,例如“向左滑动/向右滑动”,“向上/向下滑动两个手指”或“向前/向前滚动”。从视频中预测这些文字标签需要一个能够掌握三维空间自由度(汹涌、摇摆、起伏等)概念的网络。



传统的手势识别系统需要特殊硬件,比如说立体相机或者深度传感器,例如基于时间飞行原理(time-of-flight TOF)的相机。使用我们的Jester数据集,我们能够训练神经网络从原始RGB输入中检测和分类所有25种手势,测试精度为82%。该系统使用网络摄像头的视频输入在各种嵌入式平台上实时运行。

两个数据集的关键特征

 

监督学习:与使用预测性无监督学习寻求常识获得的其他方法相反,我们将任务列为监督学习问题。这使得陈述学习任务更容易和更明确。

 

密集字幕:标签描述的是限制在短时间间隔内的视频内容。这确保了视频内容与相应标题之间的紧密同步。

 

人群视频:与其他来自YouTube的视频剪辑的学术数据集相反,我们使用群众表演创建了我们的数据集。我们专有的人群动作平台能让我们向群众工作人员征集提供字幕模板的视频,而不是其他方式。这有助于生成带标记的录音,而非仅仅是标记现有视频。


以人为重点:除了像海浪或风中叶子的运动“纹理”,我们所看到的最复杂的运动模式是由人类产生。我们的数据集以人为中心,具有包含衔接和自由度等特征的复杂时空模式。

 

自然的视频场景:我们的视频是由多种设备和缩放因数捕获。数据集具有自然采光、局部闭塞、运动模糊和背景声音的场景。这确保数据集可以在最小域移的情况下转移到现实场景中。

 

这段视频具有挑战性,因为它们捕捉到了现实世界的混乱。简单一提,看看这个从Jester数据集提取的视频剪辑,里面的人在操作手势:



虽然人眼可以看见手势,但是由于视频素材包含次优照明条件和背景噪音(比如猫走过场景),所以计算机难以识别。Jester上的练习迫使神经网络了解相关的视觉提示或“分层特征”,区分信号(手部运动)与噪声(背景运动)。基本的运动检测是不够的。

 

视觉常识的实际应用

 

我们如何从理解物理概念转变到实施可操作的现实方案?我们相信可以在“学习迁移”这一技术概念中找到答案。

 

我们人类善于类比思考。正如Douglas Hofstadter所说,从一个领域中提出某个想法并将其应用到另一个领域是“我们思维的燃料和火焰”。在AI中,要通过学习迁移走向类比推理。通过学习迁移,我们可以利用Something-something和Jester上面一些专业的神经网络,并转移其功能,为特定的业务应用服务。具体来说,有些网络可以在内部展示物体在现实世界中如何交互,它们可以迁移这种内在知识,以解决以这些基本概念为前提的更复杂的问题。

 

学习迁移已经在基于图像的众多视觉任务(随处可见)上取得了惊人的成果。我们认为现在急需深入研究视频。然而,在视频域中利用学习迁移的先决条件是,可以使用高质量的标签视频数据,让神经网络模拟视觉常识。这是我们注册TwentyBN要完成的任务。我们公司的数据收集范围经历了多个过程,从难以识别、但可解决(如目前的手势识别),到非常困难、仍然无法解决。该范围的最终终点是通用AI。


如何获取数据以及在哪里对结果进行基准测试

 

你可在我们的网站上下载这两个数据集,可以在本技术报告中找到有关数据集和技术细节的更多信息。如果你自己的模型准确性符合数据集的标准,你想进行基准测试,那么可以把结果上传到我们的网站,并进入排行榜。如果你可以让我们的数据集用于商业中,请联系我们。

 

我们之所以发布这两个数据集,是促进像人类一样感知世界的机器的发展。我们的工作建立在过去和现在研究的基础之上。为了这个充满活力的社区获益,我们承诺定会有反馈。


VR2048昨日新闻回顾

微软申请了Direct Reality,其中DirectX将帮助VR内容打通各个平台 | VR2048


视频:Valve新手柄支持5个手指动作识别 | VR2048


Youtube发布新的VR视频格式VR180 | VR2048


Bizarre VR头盔可以改变食物的味道 | VR2048





我们致力于服务 VR/AR 爱好者,从业者和开发者,传播先锋资讯。
更多资讯:www.vr2048.com

主编微信:jianxiong_hu
商务合作:press@vr2048.com
欢迎关注微信公众号: vr2048com
点击下方“阅读原文”查看更多

上一篇:Youtube发布新的VR视频格式VR180 | VR2048
下一篇:Bizarre VR头盔可以改变食物的味道 | VR2048

相关阅读