腾讯公司申请人脸图像生成模型专利,通过训练后的模型生成的人脸图像中的目标对象的口型与输入音频的对齐效果得到显著提升

尚怡达人 2023-12-29 31736人围观 金融科技人工智能腾讯专利

金融界2023年12月16日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司申请一项名为“人脸图像生成模型的训练方法、装置、设备及存储介质”,公开号CN117237760A,申请日期为2023年9月。

专利摘要显示,本发明实施例公开了一种人脸图像生成模型的训练方法、装置、设备及存储介质,涉及人工智能和语音技术,该方法包括:通过人脸图像生成模型对训练音频进行特征提取得到音频特征;通过表情系数预测网络,基于音频特征对目标对象的表情系数进行预测,得到预测表情系数;通过人脸生成网络,基于预测表情系数生成预测人脸图像;基于预测表情系数与参考表情系数的差异以及预测人脸图像和参考人脸图像的差异得到损失值总和;按照减小损失值总和的方向对表情系数预测网络和人脸生成网络进行调整,得到训练后的人脸图像生成模型。采用本申请实施例能确保通过训练后的人脸图像生成模型生成的人脸图像中的目标对象的口型与输入音频的对齐效果得到显著提升。

腾讯公司申请人脸图像生成模型专利,通过训练后的模型生成的人脸图像中的目标对象的口型与输入音频的对齐效果得到显著提升

本文源自:金融界

作者:情报员

不容错过
Powered By Z-BlogPHP