GY_T 411-2024《数字虚拟人技术要求

GY 中华人民共和国广播电视和网络视听行业标准 GY/T 411—2024 2024 - 11 - 26 发布 2024 - 11 - 26 实施国家广播电视总局发布数字虚拟人技术要求 Technical requirements for digital human GY/T 411—2024 I 目次前言 . III 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 缩略语 1 5 总体架构 2 5.1 数字虚拟人分类及应用场景 2 5.2 数字虚拟人总体技术架构 2 6 形象要求 3 6.1 总体要求 3 6.2 2D 数字虚拟人的形象要求 3 6.3 3D 数字虚拟人的形象要求 3 6.4 建模技术要求 4 7 算法驱动能力要求 4 7.1 驱动能力技术要求 4 7.2 合成能力技术要求 5 7.3 多模态能力技术要求 5 8 真人驱动能力要求 6 8.1 身体动作捕捉要求 6 8.2 表情捕捉要求 7 8.3 捕捉数据要求 7 9 平台能力要求 7 9.1 平台基本要求 7 9.2 平台部署要求 8 9.3 平台服务要求 8 10 安全能力要求 . 8 10.1 数据及算法安全 . 8 10.2 个人信息保护 . 9 参考文献 10 GY/T 411—2024 III 前言本文件按照GB/T 1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件由全国广播电影电视标准化技术委员会（SAC/TC 239）归口。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件起草单位：中广电广播电影电视设计研究院有限公司、国家广播电视总局广播电视科学研究院、国家广播电视总局广播电视规划院、腾讯云计算（北京）有限责任公司、中国传媒大学、拓尔思信息技术股份有限公司、北京中科深智科技有限公司、北京七维视觉科技有限公司、湖南芒果无际科技有限公司、四川广播电视台、山东广播电视台、成都索贝数码科技股份有限公司、北京中科睿鉴科技有限公司。本文件主要起草人：王嘉、郭晓强、宁金辉、姚琼、谢东霖、徐永太、赵天晓、严明、金启棣、姚高远、张小雨、张博文、梁妙纵、任家萱、肖婧、王宇、程辉、宋健、徐立、常帅、谷燕京、魏忠书、陈智、郏涛、孙琳、陈磊、刘晶、李洋、李晶晶、徐超、罗志文、艾斌、韩庆秋、欧翔、陈尧森。 GY/T 411—2024 1 数字虚拟人技术要求 1 范围本文件规定了广播电视和网络视听行业数字虚拟人的技术要求，对于数字虚拟人分类、应用场景、形象、驱动技术、平台能力、安全能力提出规范要求。本文件适用于广播电视和网络视听行业数字虚拟人的系统建设、创作和应用。 2 规范性引用文件本文件没有规范性引用文件。 3 术语和定义下列术语和定义适用于本文件。 3.1 数字虚拟人 digital human 基于现实世界设计，通过计算机生成，再借助真人或计算驱动，在多模态输出设备呈现的虚拟人物。注：简称为数字人或虚拟人。 [来源：YD/T 4393.1—2023，3.1.1] 3.2 视频合成实时率 video synthesis real-time rate 视频合成耗时与输出视频时长比值。 3.3 数字虚拟人应用主体 digital human operation entity 使用数字虚拟人服务制作、发布、传播、交互信息的组织或个人。 3.4 蒙皮 skin 在3D数字虚拟人制作中，将模型绑定在骨骼上，通过骨骼驱动虚拟人模型的技术。 4 缩略语下列缩略语适用于本文件。 AI 人工智能（Artificial Intelligence） APaaS 应用平台即服务（Application Plat as a Service） APP 应用软件（Application software） ASR 自动语音识别技术（Automatic Speech Recognition） DurIAN 基于告知时长信息注意力网络的多模态语音合成模型（Duration Ined Attention Network For Multimodal Synthesis） FPS 每秒帧数（Frames Per Second） H5 超文本标记语言 5（Hyper Text Markup Language 5） HiFi-GAN 基于对抗学习网络的高效高保真语音合成模型（Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis） GY/T 411—2024 2 HTTPS 超文本传输安全协议（Hypertext Transfer Protocol Secure） JSON JS 对象简谱（JavaScript Object Notation） NLP 自然语言处理（Natural Language Processing） PC 个人计算机（Personal Computer） SSML 语音合成标记语言（Speech Synthesis Markup Language） TTS 从文本到语音（Text To Speech） UE 虚幻引擎（Unreal Engine） VAE 变分自编码器模型（Variational Autoencoder） 2D 二维（Two Dimensional） 3D 三维（Three Dimensional） 5 总体架构 5.1 数字虚拟人分类及应用场景 5.1.1 数字虚拟人分类数字虚拟人按照人物形象分类，分为2D数字虚拟人和3D数字虚拟人。数字虚拟人按照交互模式分类，分为非交互式数字虚拟人和交互式数字虚拟人。数字虚拟人按照驱动模式分类，分为算法驱动型数字虚拟人和真人驱动型数字虚拟人。 5.1.2 数字虚拟人应用场景数字虚拟人主要应用场景分为内容播报、交互客服、虚拟演播和内容创作等。其中内容播报包含新闻资讯播报/手语播报、电影/电视/专题片/纪录片介绍和直播带货等；交互客服包含虚拟客服、智能助手和交互问答等；虚拟演播包含综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等；内容创作包含影视创作、视频创作、广告创作和游戏创作等。 5.2 数字虚拟人总体技术架构数字虚拟人总体技术架构包括数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力等内容，总体架构见图1。数字虚拟人形象包括2D真人、2D卡通、3D写实、3D卡通和建模技术。数字虚拟人算法驱动包括驱动能力、合成能力和多模态能力。其中，驱动能力又分为文本驱动能力、语音驱动能力和视频驱动能力；合成能力包含语音合成能力和视频合成能力；多模态能力包含语音识别能力和自然语言处理能力。数字虚拟人真人驱动包含身体动作捕捉、表情捕捉和捕捉数据。数字虚拟人平台能力，应支持数字虚拟人的制作和生成，支持数字虚拟人的维护配置。平台服务能力可选择云服务或者本地服务。数字虚拟人安全能力，应为数字虚拟人应用提供安全保障，覆盖数据及算法安全和个人信息保护等。 GY/T 41