您当前的位置:首页 VR开发 图形|算法 正文

越来越火的虚拟数字人

查看: 197| 评论: 2 2019-11-29 05:58 PM| 发布者: obuil |原作者: 祖厚超

175556tp8gpdtpmdugdxum

175556wn9wqaaoh96woz29

175556e5r51kkdvk6krn0k

不久的将来,现实世界中的每一个地方和事物 —— 每一条街道、每一个灯柱、每一栋建筑物和每一个房间 —— 都会在镜像世界中拥有它的全尺寸“数字孪生兄弟”。——凯文·凯利
虚拟数字人项目就是为了拓展高保真数字人的技术边界,将电影技术应用于游戏开发而寻求新的商业机遇。主要应用的技术包括:照相建模、实时动捕、表情捕捉。
175557s6b6qbb0supmds6b

175557kobnoy2x6koqf44m

1、“数字虚拟人Siren”
Siren一词出自希腊神话,是半人半鱼或半人半鸟的海妖。人面鱼尾,背部还有一对翅膀,据说还很漂亮,Siren通常代指“迷人的女人”。
Siren是由腾讯的Next Studio和Epic Games、Cubic Motion、3Lateral等联合打造。Siren最主要的技术是实时动作捕捉技术和实时渲染。采用了Epic Games公司的虚幻4引擎,Vicon动作捕捉技术和3Lateral的面部实时解算技术。采集200多个面部特征点,并将这些数据实时地映射到Siren的面部,驱动Siren的3D脸部模型做出各种动作或表情,动作表情以每秒60帧输出在屏幕上。
整个虚拟数字人项目的一个流水线,3D扫描和建模技术会对一个真人演员进行真实的扫描以得到她脸部的基本模型,然后将这个基本模型在MAYA中进行骨骼绑定,然后再进行贴图,以为后面的动画做准备。
在拿到这些基本模型和骨骼绑定之后,我们会在引擎中做一些渲染技术的开发。真人演员会穿戴实时动捕的头盔和设备去实时的驱动虚拟的角色,然后在引擎中进行各种效果的技术整合。
真人演员会穿戴实时动捕的头盔和设备去实时的驱动虚拟的角色,然后在引擎中进行各种效果的技术整合。
175557x37ouhurx44yzhoo

这是做3D扫描的一套设备,图中右侧就是通过扫描生成的人脸的高模的模型。
175557t7lrv2rlavrv7vrr

渲染部分采用在电影行业用的非常多的Look Dev,Look Dev的意思就是在电脑里做出的效果必须要和照片拍出来的效果是一样的,这样是为了保证项目所有的开发都是基于物理真实的。
175558syjj66ajnjiuo9kz

我们在引擎里做了一些渲染技术的增强性开发,比如说毛发的渲染模型、眼睛部分的渲染技术、皮肤上的最新模型技术等等。
175558o7jza77l7r8y7umj

总的来说,整个制作的具体流程包括几个部分:模型、渲染、身体和脸部的动画。模型方面:扫描-模型清理-blendshape(基础表情)-贴图-头发
175558ann4x63znvxz2z60

例如这个是扫描真人演员得到的40个表情,我们会根据这些表情去把它拆分成不同的blendshape。
175559glj1revjy7j31q73

渲染过程的开发,主要是从皮肤、牙齿、眼睛、毛发等等方面入手。
175559te33mphugr50tplz

我们用两层的Specular,一层高频一层低频来做效果,两层混在一起效果就非常逼真。
175559qtnbt3mmz1716ct3

眼睛是晶状体,所以为了增加透射的效果,我们加了一层Normal,叫做Iris Normal。
175559qf7fwzwdkne8fhwb

头发制作和渲染包括:毛发的分层渲染、毛发渲染数据烘焙、毛发的光照模型、双散射模型、绒毛的渲染。
175600qpd2wysw7l48sdn8

一开始我们做毛发的时候用了电影里的效果,用到了MAYA的很多Polygon,我们要考虑画头发时不同的UV set,在MAYA里分成三个UV set。
175600ktbmv8hvbbmmaava

我们用Arnold在MAYA里烘焙一些贴图,包括头发颜色贴图、高亮随机颜色贴图和环境遮挡贴图等等。
175600fcs7scxz79og7ruv

175600m4geq4jzqem5qqln

2、搜狗虚拟主播
在电影《西蒙妮》中,人们曾描绘过AI虚拟主播的理想形态:她是一个由计算机虚拟合成的、高度逼真的三维动画人物。她美得令人无法拒绝,一言一行都与真人一样,并可以完成一切表演、播报,且不会有任何绯闻,妥妥的一枚“完美代言人”。
迈克斯·泰格在《生命LIFE 3.0》一书中说,生命3.0是一个由人工智能重塑的时代。在这个时代,我们可以设计自己的硬件和软件。
所谓的“像真人”,不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。
该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。但在此之前,出现在大众媒体上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象,比如微软小冰在东方卫视担任天气预报员就是如此。
要实现这样的效果,两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别。其二是低成本的个性化定制。小数据的学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真度的分身模型。最后,使用时输入一段文本,即可生成与真人无异的同步音视频。
除此之外,语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中,基于用户少量音频数据,使用语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。
图像生成引擎,则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。
最后,两大引擎协作打磨,最终才能实现“AI合成主播”,能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。
3、数字王国及其虚拟替身「DigiDoug」
175600ra8iyrarj7ggrdor
Cr. Marla Aufmuth / TED
DigiDoug是数字王国占据业界领先优势的成就之一,由虚拟人部门倾力打造。在视效行业资深人士Darren Hendler及Doug Roble的带领下,该部门致力为电影作品、大型直播活动和前沿应用量身构建虚拟人、生物与角色。
▲ Doug Roble:如何创造虚拟人/ TED2019*此视频仅作为参考使用
DigiDoug通过数字王国自主研发的实时、无缝,且支持轻量单一摄像头的面部动画系统生成。融合机器学习,DigiDoug更加直观地展现了照片写实级虚拟人应用于实时演出和虚拟社交的可能性。在演讲过程中,DigiDoug变身成另一个虚拟角色「Elbor」,以具象展示虚拟人的变化速度之快。
175600delqqbj40a0g0jq2

175601ebximd3myf7icsb3

175601lul9l774h98x9u8f

175601i06tuat699p0g7b6
52VR.COM微信扫一扫
52vr公众号
专注于VR的学习、开发和人才交流

52VR开发交流

已有 2 人参与

发表评论

您需要登录才可以回帖 登录 | 立即注册

手机版|VR开发网 ( 津ICP备18009691号 )|网站地图 统计 网安备12019202000257

GMT+8, 2019-12-14 12:48 AM

返回顶部