FBEC大会 | 海信聚好看AR/VR事业部总经理吴连朋:虚拟空间及数字人交互技术应用趋势
FBEC未来商业生态链接大会于2023年2月24日在深圳福田大中华喜来登酒店盛大召开,本次大会由广东省游戏产业协会、深圳市互联网文化市场协会指导,陀螺科技主办。
大会以“勇毅前行·逐光而上”为主题,以具有行业前瞻洞察的“探索者”为视角,逐“光”之旅为主线,聚焦元宇宙、XR、游戏、电竞、数字营销等前沿行业,全方位呈现科技前沿成果,探讨时代与商业议题,谋划新科技、新商业、新模式未来价值,与时代同行者共赴剧变革新下的勇毅逐光之道!
FBEC主会场C:相信的力量——FBEC全球元宇宙CEO峰会由武汉东湖新技术开发区管理委员会与陀螺科技联合主办,邀请到海信集团聚好看科技股份有限公司AR/VR事业部总经理吴连朋带来主题为“虚拟空间及数字人交互的技术应用趋势”的精彩演讲。吴连朋认为,如果我们绕开数字人的发展,谈元宇宙就是没有意义的。
以下为演讲实录:
大家下午好!
很开心有机会能跟大家进行分享交流,前面的嘉宾从不同的业务领域进行了分享,我会从元宇宙的基础“人+场”的应用方向,也就是数字人+虚拟空间的技术方向进行切入,在这个过程中,希望也能把海信集团聚好看的思考和正在做的事情介绍给大家。
我们是海信旗下的一家互联网公司,这是云服务板块,从下往上有企业级的、基础的PaaS云平台,目前包括国家电网、中大型企业数字化转型里做私有云的PaaS平台的切换。除此之外,还有通用互联网架构下所需要的PaaS云的部分,以及音视频的解决方案,是面向移动互联网基础能力的构建。
2016年的时候,在集团战略的部署下,我们开始承担XR板块,其中包括眼镜的探索方向。
2020年,我们发布了国内首个双8K直播的VR云平台,这是基于VR的视频处理、编解码处理以及传输分发的云平台,包括本次大会的VR视频直播也是我们平台的产品来提供,这是比较成熟的应用方向。
在此基础上,2019、2020、2021年,我们不断探索XR领域跟硬件结合、跟应用结合的新的解决方案。我们的路线,是从数字虚拟人的引擎开始,再到基于人+虚拟空间的元宇宙的互动活动平台的应用。
现在大家都谈数字人,为什么大家都在谈、也还有人去做呢?这个问题我们从2019年就开始思考了。目前数字人的引擎没有成为通用能力的情况下,一个企业想要做好XR领域的应用和解决方案,是无法绕过一些基础核心技术的积累和突破的。
说元宇宙,首先会说到数字人,说得最多的也是数字人。其实在五年前、十年前,虚拟仿真的技术,包括游戏的应用就已经非常成熟。所以,如果我们绕开数字人的发展,谈元宇宙就是没有意义的。
基于数字人生产的效率和性能的提升,是驱动元宇宙应用的基础逻辑。这里有两个案例,一个是目前行业中做得非常好的欧美超写实数字人,左上角是相对比较轻量级的数字人。在数字人发展的基础上,有各行各业元宇宙数字人的探索。
虽然说数字人的建模和渲染技术不断提升,也可以做各领域探索,但不代表每一个领域在一两年内就可以成熟。从我们自己的思考来讲,比如社交的元宇宙,Meta已经投入了很长的时间,但是目前最高用户也才达到20万,日活还在不断下降,所以偏社交、大C端的社交应用的方向,不是我们目前想要去拓展的方向。
从技术角度去看,数字人从开始构建,到真正在元宇宙里应用起来,具体需要做哪些,以及它的应用趋势是怎样的?拆解出来是以下五个阶段。
第一,把人生产出来,这就是建模的技术。建模技术发展的趋势,首先是要达到更高的精度,其次是以更小的成本和更小的算力去获得更高的精度。从多视角几何,纯数字算法的模式,向深度学习大模型去发展。
第二,人建出来之后,需要使面部的动作动起来,动作的方向是更加轻便,让人无感知地应用起来,才能在消费级有更好的应用,所以从传统的光学、惯性动作捕捉等往更加轻量的可以消费级应用的单RGB摄像头的精细化驱动方向发展。
第三,动起来以后,需要人周边的服饰和头发等的仿真效果。
第四,在把人生产、动作、周边服饰都做出来以后,重要的方向是能够把这些很好地渲染出来。
第五,前面四个阶段生产完以后,只能说有了这样的形象出来,可以有基础的活动交互,而最终还是要用AI给它赋能,让它具有灵魂。最近有很多人讨论ChatGPT,ChatGPT结合数字人一定是可以的,并且很快能够改变很多行业的应用方向,尤其是数字智能化的助手方向,替代一些人力,更好地展现效率。
从数字人的划分来讲,我们做了一个分类:从最基础的风格化的数字人,到写实数字人,再到超写实数字人。
风格化数字人,目前国外已经有很多通用的模型,很多行业应用都在基于这些模型去做。我们认为,它更加适合偏游戏、偏轻量化的娱乐性方向,而不适合行业级的应用方向。
2020年,海信推出了自己的第一个元宇宙电视行业发布会,当时也是风格化数字人。但近一两年我们想要进行行业应用拓展和规模化,就一定要往写实和更加超写实的方向推进。写实和超写实数字人这两个部分是有交叉的,这取决于具体的应用场景。
比如写实的数字人,基于单张的图片,基于1万以内的面片数去生产数字人的形象,才有可能在目前的终端算力下,做到几百上千的并发,去进行交互和这个范围内的应用。
这是我们自己打造的其中一个超写实形象,它现在承载着我们流量代理人的角色。我们自己的超写实数字人的打造技术,从学术到真正能落地的趋势是一致的,就是高精度扫描以后,AI能够自动化的建模,可以把原来需要专业团队做几个月的工作量缩短到两周以内。我们说超写实,不仅仅是代表它有8K的贴图和毛孔级的精度,更重要的是面部的表情,还有身体和骨骼动作的精细化处理。
这是我们最近两周的案例,背景是中亚五国在集团的采访。这个场景需要长达6分钟的俄语播报内容,常规的展厅不太可能完成,但是现在通过AI数字人,包括语音的技术和自动的动作捕捉,2个小时以内可以生产这样的内容,满足应用场景的需求。我们说元宇宙、数字人,还是要考虑到底是在什么样的场景下提供了什么样的价值。
另一个案例是更轻量级的模型,精度相对没有那么高,但是一切的技术都是服务具体落地的场景。比如今天的大会,我们有两路不同的直播,一路是基于VR视频的直播,另一路是基于元宇宙活动的直播,当面临上百或者是上千虚拟人在同一个空间里进行活动和交互的时候,就必须要平衡它千人千面的追求,以及算力、精度、实时互动的流畅。在不同的场景需要不同的写实度,这是我们在应用落地场景的结合探索中得出的经验。大部分场景可能不需要达到95%的写实度,可能只需要达到60%以上的写实度就可以达到流畅、体验感平衡的效果。
我们对技术服务场景这个方向的思考,它不是适合于通用的、想把所有的企业和用户都放在一个公共的大空间里的应用,而是要聚焦于某一个很小的细分场景,比如会议的活动,虚拟的教研活动,或者其他的展览展示活动。
现在大家都在谈数字人的技术,但3年以后,基础数字人的能力,无论是建模、驱动,还是结合云以后整个AI的生成能力,可能马上就会成为基建的技术,它会像现在云计算和大数据公共算力一样,成为一种基础能力。但是在这段时间里,整个行业的从业者如果要做到真正的落地和实现,还是要明确自己的方向,以及对关键领域进行突破。
引用一个报告的数据,后疫情时代,虚拟活动的场景占比和用户接受度在逐渐增高。在这种情况下,我们有基础的面向一个一个活动场景的产品架构,在这样的架构里面,无论是数字人,还是云渲染,都已经是基础的技术能力。传统的虚拟仿真教育,也面临着往基于多人的互动远程空间更加真实和更具沉浸感的发展方向,这也是未来我们发力的细分场景。
谢谢大家!