测量装置

狗狗视角看世界,用视觉数据预测狗的行为

发布时间:2023/4/4 15:17:27   
皮肤白癜风的治疗方法有哪些 http://pf.39.net/bdfyy/jdsb/220321/10467294.html

雷锋网AI科技评论按:这篇文章提出了一种全新的CV任务。

来自华盛顿大学艾伦人工智能研究所的KianaEhsani团队突破传统计算机视觉的研究任务,尝试从目标对象(例如狗)的视角进行建模,并以此模型来预测对象的行为模式。

这种表示学习方法与传统的图片训练任务的不同之处在于,它的模型训练是从特定视角出发,所以这是一种全新的CV任务。在论文中,作为案例,作者采用狗狗的视角来训练模型,在狗的行为建模上取得显著的成功。作者表示,该方法有望拓展到其他领域。

下面为雷锋网对该论文的详细解读。

传统的计算机视觉研究专注于分类、识别、检测及分割等子任务;当去解决一般的计算机视觉问题时,研究人员一般会将这些功能进行有机的组合。但这种研究方法所得出的结果一直与期望结果有较大的差距。本文的作者受近期「行为和交互在视觉理解中作用」研究工作的启发,他们将视觉智能(visualintelligence)问题定义为:理解视觉数据并在视觉世界中采取行动或执行任务。在这种定义下,作者认为要像一个视觉智能体在视觉世界中那样去学习。

作为该项研究的切入口,他们选择一只狗作为视觉代理。相比于人类,狗有一个简单的行为空间,这使任务能更容易地处理;而另一方面,它们能够清楚地表现出视觉智能,识别食物、障碍物、其他人类和动物,并对这些输入作出反应。

在实验中,KianaEhsani团队通过狗的自我视角录制的视频数据,加上将传感器安装在狗的关节处收集来的动作数据,构建了数据集DECADE(DatasetofEgo-CentricActionsinaDogEnvironment)。

在作者的研究中,他们利用DECADE数据集,主要探索三个问题:

(1)Actinglikeadog,即预测狗的行动;

(2)Planninglikeadog,即预测狗的运动序列;

(3)Learningfromadog,即如何利用狗的动作作为表征学习的监督信号。

1.数据集

如上所述,作者使用了DECADE数据集。这个数据集包含个视频剪辑片段,这些视频由安装在狗头部的摄像机拍摄而来。视频中还包含设备安装部位和运动轨迹等信息。

在实验中,作者总共用了帧,其中帧用于训练模型,帧用于验证,帧用于最后的测试。

作者使用的是GoPro摄像头拍摄的这些视频,采样频率为5fps。该团队使用4个惯性测量单元(IMUs)来测量狗的四肢的位置,一个单元测尾巴位置,还有一个测躯干位置。这些设备可以用角向移动来记录运动。

他们获取的每一帧都包含六个测量单元的角移。角移以4维4元数向量表示。惯性测量单元的绝对角移与狗面向的方向有关,不同关节的角移是有区别的,这些区别也可以用四元数表示。他们认为两个连续的帧之间角移的区别就代表着这条狗这两帧之间的动作。

获取这些信息的的具体情形是一个安装在狗背上的Arduino监视器连接着各个测量单元(IMUs)来记录位置信息。它还能通过狗背上的

转载请注明:http://www.aideyishus.com/lkgx/4005.html

------分隔线----------------------------