【新致远简介】只需要几张图片和文字,就可以生成任意年龄段的图片,用户反馈准确率高达80%!
目前的“人脸识别系统”抗衰老能力非常弱。 人脸老化会显着降低识别性能,每隔一段时间就需要更换人脸数据。
提高人脸识别系统的鲁棒性需要收集有关个体衰老的高质量数据。 然而,近年来发布的数据集通常规模较小且时间不够长(例如大约5年),或者具有不同的特征,例如姿势、光照、背景。 人脸数据等方面发生了重大变化。
近日,纽约大学的研究人员提出了一种通过潜在扩散模型来保留不同年龄的身份特征的方法,并且只需要少量样本的训练,并且可以直观地使用“文本提示”来控制模型输出。
论文链接:
研究人员引入了两个关键组件:身份保留损失和小型(图像、描述)正则化集合,以解决现有基于 GAN 的方法所施加的限制。
在对两个基准数据集 CeleA 和 AgeDB 的评估中,与常用生物识别保真度指标上最先进的基线模型相比,该方法将错误错配率降低了约 44%。
追踪面孔的年龄变化
梦想展位
本文提出的方法基于潜在扩散模型DreamBooth,可以通过微调文森图扩散模型将单个主体置于其他上下文中(重新上下文化)。
Dreambooth的输入要求是目标主题的多张图像,以及包含主题唯一标识符和类标签的文本提示,其中类标签是多个实例的集合表示,主题对应于属于哪个具体示例到班级。
Dreambooth 的目标是将唯一标识符与每个代理(类的特定实例)相关联,然后在文本提示的指导下,在不同上下文中重新创建同一代理的图像。
类别标签需要利用指定类别的预训练扩散框架的先验知识。 不正确或缺失的类标签可能会导致输出质量下降。 独特的标记充当对特定主题的引用,并且需要足够稀有以避免与其他常用概念发生冲突。
原作者使用了一组少于3个的Unicode字符序列作为token,并使用T5-XXL作为tokenizer。
DreamBooth 使用特定于类的先验保留损失来增加生成图像的可变性,同时确保目标对象和输出图像之间的偏差最小。 原始训练损失如下:
DreamBooth可以借助预先保存,有效合成狗、猫、卡通等主题图像。 然而,本文主要关注结构更复杂、纹理更细致的人脸图像。
虽然类标签“人”可以捕获类人特征,但由于个体差异,它可能不足以捕获身份特征。
因此,研究人员在损失函数中引入了身份保留项,可以最小化原始图像与生成的图像生物特征之间的距离,并利用新的损失函数对 VAE 进行微调。
公式中的第三项表示被拍摄物体的真实图像与生成图像之间的生物距离,其中B表示两幅图像的L1距离。 相同像距接近于0。该值越大,两个被摄体之间的差异越大。 ,使用预先训练的 VGGFace 作为特征提取器。
下一步是针对特定目标对其进行微调,使用冻结的 VAE 和文本编码器,同时保持 U-Net 模型未冻结。
UNet 对 VAE 编码器产生的潜在表示进行去噪,并使用身份保留对比损失进行训练。
研究人员采用SimCLR框架,利用正负样本对之间的归一化温度尺度交叉熵损失来增强潜在表示,即下式中的S函数。
使用加权项 λs = 0.1 和温度值 = 0.5 计算无噪声输入 (z0) 和去噪输出 (zt) 的潜在表示之间的对比度损失。
U-Net 架构中潜在表示之间的对比损失使模型能够针对不同主题微调扩散模型。
除了定制损失之外,研究人员还使用正则化集赋予潜在扩散模型面部年龄进展和回归的概念,该正则化集包括类别的所有代表性图像(在本例中为人)。
如果目标是生成真实的人脸图像,那么从互联网上选择一组正则化的人脸图像就足够了。
然而,本文的任务是让模型学习衰老和返老还童的概念,并且必须应用于不同的个体,因此研究人员选择使用不同年龄段的人脸图像,然后将它们与文字描述相结合(单字标题)进行配对。
图像描述对应六个年龄段:儿童、青少年、青壮年、中年、老年和老年。
与数字提示(20岁、40岁)相比,年龄描述的表现更好,并且扩散模型可以在推理中用文本提示((〈令牌〉〈类别标签〉为〈年龄组〉 )
实验结果
实验装置
研究人员对在 Stable Diffusion v1.4 中实现的 DreamBooth 进行了实验,使用 CLIP 文本编码器(在 laion-aesthetics v25+ 上训练)和矢量量化 VAE 来执行年龄变化,并且在训练扩散模型时文本编码器保持冻结状态。
研究人员使用了 CelebA 数据集中 100 名受试者的 2258 张面部图像和 AgeDB 数据集中 100 名受试者的 659 张图像来形成训练集。
除了二元属性“Young”之外,CelebA数据集没有受试者的年龄信息; AgeDB数据集包含精确的年龄值,研究人员选择了图像数量最多的年龄组并将其用作训练集,而其余图像则用于测试集(总共2369张图像)。
研究人员使用(图像,描述)数据对作为正则化集,其中每个人脸图像都与一个说明其相应年龄标签的标题相关联,具体来说该孩子是 65 岁,使用四个罕见标记作为标记:wzx、sks、ams , 英国
比较结果
研究人员使用 IPCGAN、AttGAN 和 Talk-toEdit 作为基线模型进行评估和比较。
由于IPCGAN是在CACD数据集上训练的,研究人员对CACD数据集中的62个受试者进行了微调,可以观察到FNMR=2%,而论文中提出的方法FNMR(False NonMatch Rate)=11%
可以看出,IPCGAN默认无法进行老化或再生操作,导致FNMR值非常低。
研究人员使用 DeepFace 年龄预测器进行自动年龄预测。 可以观察到,与原始图像和IPCGAN生成的图像相比,本文方法合成的图像会使年龄预测更加分散,表明年龄编辑操作已经成功。
当在CelebA数据集上应用AttGAN和对话编辑时,在图像比较和生物特征匹配性能方面,可以观察到当FMR=0.01时,本文的方法在“年轻”类别的图像上比AttGAN好19%,在“旧的类别图像上比 AttGAN 好 7%”
用户研究
研究人员收集了 26 条用户反馈,Rank-1 生物特征识别准确率(回复总数的平均值)达到 78.8%。 各年龄段的正确识别准确率分别为:儿童=99.6%、青少年=72.7%、青少年=68.1%、中年=70.7%、老年人=93.8%
也就是说,用户能够以相当高的准确度成功地区分来自不同年龄组的生成图像。