首页 资讯 关注 科技 财经 汽车 房产 图片 视频 全国

动态

旗下栏目: 动态 建材 趋势 市场

【超越CycleGAN】这个人体动态迁移技术让白痴变舞王(视频)

来源:未知 作者:admin 人气: 发布时间:2019-05-27
摘要:原标题:【超越CycleGAN】这个人体动态迁移技术让白痴变舞王(视频) 【新智元导读】伯克利的研究人员提出了一种简单的动作迁移法,可以将源视频中一个人的动作和姿态,迁移到新的视频对象上,让后者也具有同样流畅优美的动作,整个过程只需要几分钟就成完成

  原标题:【超越CycleGAN】这个人体动态迁移技术让白痴变舞王(视频)

  【新智元导读】伯克利的研究人员提出了一种简单的“动作迁移法”,可以将源视频中一个人的动作和姿态,迁移到新的视频对象上,让后者也具有同样流畅优美的动作,整个过程只需要几分钟就成完成。论文地址:

  CycleGAN利用pixel2pixel技术,能自动将某一类图片转换成另外一类图片,过度线年最受关注的模型之一。CycleGAN论文的第一作者、加州大学伯克利分校的朱俊彦(现已在MIT CSAIL担任博士后),也由此获得了SIGGRAPH 2018的杰出博士论文奖。

  现在,同样是伯克利的Caroline Chan、ShiryH Ginosar、Tinghui Zhou、Alexel A. Efros提出了或许更有意思的一篇论文,不仅是图像,而是实现不同视频之间的人物动作姿态转换,而且面部也能逼真合成效果,整个过程只需要几分钟就能完成。

  本文提出一种简单的 “跟我做”(do as I do)的动作迁移方法:给定一个人跳舞的源视频,我们可以在目标人物表演标准动作几分钟后将该表演迁移到一个新的目标身上(业余舞者)。

  我们将这个问题视为一个具有时空平滑的每帧 image-to-image 转换问题。利用姿势检测作为原和目标之间的中间表示,我们学习了从姿势图像到目标对象外观的映射。

  他们要实现的目的很简单——给定两个视频:一个是目标人物,我们想合成他的表演;另一个是源视频,我们想将他的动作转移到目标人物身上。

  这与过去使用最近邻搜索或 3D 重定向运动的方法不同。在伯克利研究人员提出的框架下,他们制作了各种各样的视频,让业余舞蹈爱好者能够像芭蕾舞演员一样旋转、跳跃,表演武术,跳舞。

  最初,为了逐帧地在两个视频的主体之间迁移运动,研究人员认为他们必须学习两个人的图像之间的映射。因此,目标是在源集和目标集之间发现图像到图像的翻译(image-to-image translation)。

  但是,他们并没有用两个实验对象对应的相同动作来直接监督学习这种翻译。即使两个实验对象都做同样的动作,由于每个实验对象的体型和风格差异,仍然不太可能有帧到帧的 body-pose 对应的精确框架。

  于是,他们观察了基于人体姿态关键点(keypoint),关键点本质上是编码身体的位置而不是外观,可以作为任何两个主体之间的中间表示。而姿势可以随着时间的推移保持动作特征,同时尽可能地抽象出对象身份标识。因此,我们将中间的表示设计为火柴人自试图,如下图所示。

  将源视频中人物(左上)动态的姿态关键点(左下)作为转化,迁移到目标视频人物(右)。

  从目标视频中,我们得到每一帧的姿势检测,得到一组(姿势火柴人,目标人物形象)的对应数据。有了这些对齐的数据,我们就可以在有监督的情况下,学习一种在火柴人和目标人物图像之间的 image-to-image 的转换模型。

  因此,的模型经过训练,可以生成特定目标对象的个性化视频。然后,将动作从源迁移到目标,将姿势火柴人图形输入到训练模型中,得到与源姿势相同的目标对象的图像。

  这种方法生成的视频,可以在各种视频主体之间迁移运动,而无需昂贵的 3D 或动作捕捉数据。

  作者在论文中写道:“我们的主要贡献是一个基于学习的视频之间人体运动迁移的 pineline,所得结果的质量展示了现实的详细视频中的复杂运动迁移。”

  1、姿势检测:根据源视频中给定的帧,使用预训练好的姿势检测器来制作姿势线、

  全局姿势归一化:该阶段考虑了源视频与目标视频中人物身形的不同,以及在各自视频中位置的差异;3、

  将归一化的姿势线条图与目标人物进行映射:该阶段通过对抗性学习设计了一个系统,来将归一化的姿势线条图与目标人物进行映射。

  模型根据源视频中给定的帧,使用预训练好的姿势检测器 P 来制作姿势线条图。在训练期间,学习了一种映射 G 和一个对抗性鉴别器 D,来试图区分哪些匹配是真,哪些是假。

  模型使用一个姿势检测器 P : Y′ → X′来获取源视频中人物的姿势关节,这些关节通过归一化,转换为姿势条形图中目标人物的关节。而后,我们使用训练好的映射 G。

  为了实现这一点,研究人员将 pix2pixHD 的对抗性训练设置修改为:

  方法是基于 pix2pixHD 中的目标提出来的。在初始条件 GAN 设置中,生成器网络 G 对多尺度鉴别器 D = (D1,D2,D3) 进行极大极小博弈。

  我们添加了一个专门的 GAN 设置,用于为面部区域添加更多细节和真实感,如下图所示。

  我们探讨了对 pix2pixHD baseline 的修改效果,并根据收集的数据集评估结果的质量。

  迁移的结果。每个部分显示 5 个连续的帧。上面一行显示 source subject,中间一行显示规范化的 pose stick figures,下面一行显示目标人物的模型输出。

  从根本上说,作为输入的 pose stick figures 依赖于噪声姿态估计,这些估计不会逐帧携带时间信息。在姿势检测中丢失关键点,关键点位置不正确,会将错误引入到输入中,并且这些失败通常会延续到结果中,虽然我们尝试了通过时间平滑设置来减轻这些限制。但即使我们试图在设置中注入时间连贯性(temporal coherence),以及预平滑关键点,结果经常仍然会受到抖动的影响。

  虽然我们的全局姿势归一化方法合理地调整了任何源对象的运动,使其与训练中看到的目标人物的体型和位置相匹配,但这种简单缩放和平移解决方案并未考虑不同的肢长和摄像机位置或角度。这些差异也会导致在训练和测试时看到的运动之间存在更大的差距。

  另外,2D 坐标和缺失检测限制了在对象之间重新定位运动的方式,这些方法通常在 3D 中工作,需要有完美的关节位置和时间连贯运动。

  为了解决这些问题,需要在时间上连贯的视频生成和人体运动表示方面做更多的工作。虽然整体上 pose stick figures 产生了令人信服的结果,但我们希望在未来的工作中,通过使用为运动迁移特别优化的时间连贯输入和表示来避免它所带来的限制。

  尽管存在这些挑战,但我们的方法能够在给出各种输入的情况下制作吸引人的视频。

  难度被誉为最高的芭蕾舞黑天鹅48圈转,可以换上自己的脸,想想还是有些小激动呢。

责任编辑:admin

频道精选

首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国

凯发娱乐官网版权有所 2018凯发娱乐官网 copyright 设计制作:主页

电脑版 | 移动版