元宇宙服务器助力构建高逼真交互型数字人

近日，在浪潮 & NVIDIA元宇宙算力发展研讨会上，浪潮信息和NVIDIA分享了如何使用浪潮元宇宙服务器MetaEngine与NVIDIA Omniverse快速构建高逼真的交互型数字虚拟人。

数字人生产需要强大的多元算力支撑

虚拟数字人是元宇宙的主要实体，就像是元宇宙世界中的公民，是人类身份在虚拟世界的载体。随着2021年元宇宙风起，更高拟真、超写实，具有强交互性的新一代虚拟人开始涌现，且正在被规模化应用到不同产业场景。

数字人生产可以拆分成人物建模、人物驱动、人物渲染和感知交互四个作业环节。AI能够加速虚拟数字人生产的每个作业环节，可以说AI正在改变数字人的生产范式，将数字人的创作周期大幅缩短，提升生产效率，推动数字人产业快速发展。

这样一种新范式的背后其实是更巨量和多元的算力需求。具体而言，数字人和其他实体的建模需要众多设计师协同创作完成，这就需要底层平台具有强大虚拟化和云端协同计算能力；当数字人建模完成之后，数字人自身的运动，数字人和其所处的数字环境、以及其他实体的相互作用需要大量的结构力学、弹性力学，以及多体动力学等物理仿真算力需求；让数字人无限接近自然人，需要高逼真、沉浸感的3D渲染，例如阿丽塔高度拟真的视觉特效来源于光线追踪、光栅化、DLSS等巨量的图形图像算力支撑；在智能交互环节，由AI驱动的数字人往往需要结合语音识别、NLP、DLRM等AI算法从而实现交互能力，这些模型的背后需要强大的AI算力来支撑其训练和推理。此外，现实世界和数字世界的交互则需要超低延迟的网络数据传输，来创造更流畅的沉浸式的数字世界体验。

由此可以看出，元宇宙的构建和运行需要强大的多元算力支撑。这也对算力基础设施提出了更高的要求，不仅是高性能、低延迟、易扩展的硬件平台，还需要有端到端、生态丰富、易用的软件栈。

浪潮MetaEngine：元宇宙算力平台

浪潮元宇宙服务器MetaEngine就是要打造支撑元宇宙的软硬一体化算力基础设施。为此，浪潮与英伟达联合打造业界最强软硬件生态，为数字人和数字孪生的构建提供多元算力，以及丰富的技术和工具，为用户打造高效的元宇宙协同开发体验。

在硬件上，MetaEngine采用浪潮领先的异构加速服务器，支持最先进的CPU和GPU，具有强大的RDMA通信和数据存储能力，可提供强大的渲染和AI计算能力。

在软件上，MetaEngine可以支持对应每个作业环节的各类专业软件工具，用户可以根据使用习惯灵活选择。同时系统全面支持NVIDIA Omniverse Enterprise，是经过优化的OVX系统，可提供用于构建和部署大规模数字孪生的相关功能及性能。用户可以通过Kit功能将不同的SDK进行模块化的组合，快速完成定制化App或者微服务的开发。互联插件CONNECT可以通过通用数据格式USD实现第三方专业软件工具无缝连接，目前CONNECT已经提供了20多种Plugins，支持与3DS MAX，UE, MAYA等软件互联，解决不同软件之间难以打通、互操作性弱的痛点难题。

MetaEngine还整合了浪潮“源”大模型和浪潮AIStation智能业务创新生产平台的能力。浪潮“源”大模型参数规模高达2457亿，具备知识问答、多轮对话、中英翻译、写作古诗等零样本或小样本的推理能力，可以让虚拟人像人类一样进行自然语言交互。而针对浪潮“源”需要多GPU计算设备协同工作的问题，浪潮AIStation可实现多计算资源的智能调度管理，保证模型服务的高吞吐、低延迟。

浪潮MetaEngine - NVIDIA Omniverse快速构建高逼真交互型数字人

浪潮信息与NVIDIA强强联手，基于MetaEngine和NVIDIA Omniverse Enterprise推出了具备统一多软件格式、支持多人协作、支持实时驱动和实时光线追踪渲染的虚拟人解决方案，强大的算力平台及丰富的软件栈让虚拟人构建由难变易，尤其适合大规模虚拟人制作场景。

方案集成了创建数字人的流程和技术，可以快速生成毛发、皮肤、细节都非常逼真的超写实数字人，帮助数字人制作用户更好地创建自己的数字虚拟IP。

使用方案中的NVIDIA Ominiverse audio2face工具，通过很简短的一段音频输入，就可以驱动这段语音对应的表情，大大加速数字人的制作过程。

在动作识别方面，以往采用光学和惯性动作捕捉技术，需要真人演员驱动，并使用大量的摄像头、传感器，制作难度大、成本高、周期长。现在，借助浪潮MetaEngine - NVIDIA Ominiverse方案，可以基于人体骨骼点二维运动特征向量进行动作识别，进一步映射到数字人躯体上，快速驱动数字人的表情和动作。

此外，还可以实现数字虚拟人和真实人类的交互。虚拟人可以识别真实人类的动作、肢体语言和反馈，再通过NLP模型、图形图像处理软件，根据机器学习算法决定说什么话，来吸引真实的人类，和人类进行交互。

如何使用浪潮MetaEngine和NVIDIA Ominiverse来构建高逼真的交互型虚拟数字人呢？下面按照人物建模、人物驱动、人物渲染、感知交互的作业流程来说明。

首先可以使用UE metahuman等软件配合Omniverse的nucleus/connect进行3D人物形象及人脸建模。

然后通过高精仿真，让虚拟数字人的动作和行为更加物理准确。

接下来实时渲染环节，RTX Renderer可以提供实时渲染能力，让人物动画及其场景实时立体地展示在我们面前，通过屏幕或XR设备进行沟通交流。

最后是智能交互，这部分需要有大量的AI模型提供支撑。用户首先通过ASR和Vision AI模型进行语音和图像识别，进一步将识别得到的结果送入全球最大的中文语言模型之一的浪潮“源1.0”大模型来生成应答的语言文本，在这个部分AIStation推理平台会负责管理源1.0及语音模型，源回答的结果，会经过tts模型转化为语音，然后送入NVIDIA Omniverse audio2face，通过语音驱动数字人面部产生逼真的表情及面部动作，并通过RTX Renderer实时渲染能力生成动画视频作为输出与用户交互，让对话及交互更加自然真实。

来源：瞭望

用阳光代替WiFi信号连网，沙特科学家这成果亮了

詹士发自凹非寺量子位 | 公众号 QbitAI

用阳光代替wifi信号 ，实现连网并传输数据，这可能么？

有人做到了。

沙特阿拉伯的研究者设计了一种智能玻璃系统。

它能把窗子当成了调制解调器（也就是家里上网用的“猫”），通过改变阳光性质实现信息传输。

手机摄像头接收光信号后，再将其转换回二进制数据。

只需功率为1瓦的太阳能电池，就能让其运行。

目前，该研究已发表在《IEEE光子学杂志》（IEEE Photonics Journal）上。

究竟如何做到的？往下看。

你，相信光么？

在以往，前人一般是改变光的强度对其进行编码。

但光在空气传播中，其强度会受气压等环境影响而不断变化，传输效率太低，且人眼对光强剧烈变化十分敏感。

这回，这些研究者转而使用光的偏振 原理。

中学就有学到，光作为一种横波，如果让其通过特定介质（偏振片），将只保留特定方向的部分光波。

通过上述原理，研究者设计出一个系统，通过改变光波偏振状况，将信息搭载到阳光中，且人眼不易察觉变化。

具体改变需要通过液晶材料实现。在不同电压下，此类材料分子排列将发生改变，继而左右该介质光的偏振情况。

但这仍不够。

为提升编码效率，研究者还参考液晶快门的时间响应函数，并考虑透光介质双折射等问题，将两个反向的液晶 (LC) 单元堆叠 在一起。

最终，整个调制系统包含3个偏振片，2个反向液晶层（一个常白、一个常黑）——

研究者将其称为双单元液晶快门(DLS) 。

此种设计的好处在于：

比起单层液晶偏振系统，它能够更快改变光波偏振，降低编码错误，同时，对于光在传播中强度随机起伏的「闪烁效应」也能减小影响。

从下图能看出，红线为常白模式对信号1的输出，蓝线为常黑模式，当两者堆叠后，信号「1」的脉冲（绿色曲线）更短，变化更迅速，在通信编码中效率更高。

以DLS为基本调制单元，研究者为替代wifi设计了一整套信息传输系统：

先让阳光照射过智能玻璃窗，窗子本身就是调制器，通过DLS改变光波偏振情况，对其进行调制编码。

搭载信息后的光波继续进入室内，再被手机等终端摄像头接收到，对其进行解调变回成二进制数据。

为了进一步提升传输速率，研究者还使用了时分复用技术（TDM）。

该技术简单说，就是在一个信道内将传输时间进行切割，按一定次序给不同设备分配传输接受时间，轮到某个设备时，该设备就开启传输，同时其他设备传输将被切断。

最后，研究团队通过建模，观察了自己搭建系统的传输表现。

目前较主流的对光调制并直接传输通信方式会采用半导体光放大器（SoA），研究者选取了两种调制模式进行对比：调制面积66平方厘米的RetroTurbo，以及调制面积14平方厘米PassiveVLC。

结果显示，同等调制面积与同等传输距离下，他们的系统均优于目前最先进的方式，最高传输速率可达16Kbps 。

能耗方面，仅需1W的太阳能电池板，就能驱动整个系统运转。

尽管目前传输信息速率有限，但团队认为该成果预示着阳光不仅仅是一种能量资源，更是一种信息资源，这将有助于我们以更低能耗进行信息传输。

关于后续研究规划，团队表示：

他们下一步希望能将传输速率提升到每秒兆比特，甚至千兆比特 ，为此将申请订购相关测试硬件。

团队介绍

最后了解下研究团队成员。

一作Sahar Ammar来自阿卜杜拉国王科技大学 (KAUST)，电气和数学科学与工程 (CEMSE) 部门，主要研究方向为光通信；

二作Osama Amin，同样来自阿卜杜拉国王科技大学的电气和数学科学与工程 (CEMSE) 部门；

指导老师Basem Shihada，主要研究领域为无线、有线通信，也涉足网络安全与云计算。

参考链接：[1]https://ieeexplore.ieee.org/document/9864223/authors#authors[2]https://interestingengineering.com/innovation/researchers-devise-smart-glass-windows-that-can-polarize-sunlight-for-wireless-data-transmission[3]https://www.alphagalileo.org/en-gb/Item-Display/ItemId/226738?returnurl=https://www.alphagalileo.org/en-gb/Item-Display/ItemId/226738

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

汽车常用专业术语有哪些?

1.整车装备质量(kg):汽车完全装备好的质量,包括润滑油、燃料、随车工具、备胎等所有装置的质量。2.最大总质量(kg):汽车满载时的总质量。3.最大装载质...

求救《计算机应用基础》第06章在线测试1、合法的IP地址是___...

[回答]一:DBDAC二:1、BCD2、ABCE3、ABDE4、BCD5、BCDE三:1正确2错误3错误4正确5错误仅供参考!

dls最佳分频点?

DLS(DynamicLinkSharing)是一种动态链路共享技术,用于在无线通信系统中优化频谱资源的利用。最佳分频点是指在DLS中选择的最佳频率分配点,以最大化系统容量...

怎么用Twitter？，twitter翻译器哪个地方的好？？

[回答]OneWorld支持企业跨境出海,和有语言障碍的外国友人实时交流支持多种即时通讯交流软件,支持全球大部分语种即时交流无需复制粘贴,自动翻译,畅享极速...

敢问大家，数控车床cnc如何操作？

[回答]数控车床cnc程序的检查与调试首先将机床锁住,只运行系统。这一步霹是对程序进行检查,若有错误,则需重新进行编辑。数控车床cnc加工程序的输入调用...

请问directx.9.0是什么软件,有什么用?-ZOL问答

DirectX包含了对Direct3D、DirectDraw、DirectPlay、DirectSound、DirectInput等显示、声音以及系统的重要升级。新的DirectX8使你获得更好的...

国内汽车音响改装品牌排行榜，有人知道吗?-追梦者的回答-...

国内综合评价最高的六大汽车音响改装品牌。1、瑞典DLS公司介绍:成立于1979年,总部位于瑞典的哥特伯格,多年来一直为纯音乐爱好者提供高素质的音响产...

思科网络中Loopback和Null接口的配置是怎样的?-smile_star...

环回接口本质上是个虚拟接口,始终处于up状态环回接口可以用作诸如BGP、RSRB和DLSW+这样协议的终点。即使其他接口down了,这些接口也始终可用。...

您好，老师，个人通讯费报销发票是个人名字，这样的发票能税...

[回答]需要问你税局口径各地不一样,这个可以去参考下员工通讯补助等的所得税扣除问题各地税务局地区口径北京国税2013年企业所得税汇算清缴政策辅导为员...

能问一下！什么是环氧乙烷？环氧乙烷有什么作用？，环氧乙烷...

[回答]激光打标机是利用激光束在各种不同的物质表面打上永久的标记。在产品零件上打上标记,刻制各种图章。由于激光打标机可雕刻金属及多种非金属材料,且...

dlsp光通讯元宇宙服务器助力构建高逼真交互型数字人

元宇宙服务器助力构建高逼真交互型数字人

用阳光代替WiFi信号连网，沙特科学家这成果亮了

你，相信光么？