投资观察界7月20日(吴高山)从 CoreML 到自动驾驶汽车,苹果的新技术探索在形成产品之前通常都会处于接近保密的状态,直到去年 12 月底,他们才以公司的名义发表了第一篇机器学习领域里的学术论文,介绍了自己在改善合成图像质量方面的研究。最近,这家以封闭而闻名的科技巨头突然宣布将以在线期刊的形式定期发表自己在机器学习方面的研究,而这份期刊的第一篇文章主要探讨的依然是合成图像的真实性,让我们先睹为快。
现在,神经网络的绝大多数成功实例来自监督学习。然而,为了达到高精度,数据训练集需要大且多元,并经过精确标注,这意味着高昂的成本。标注海量数据的一个替代方案是使用来自模拟器的合成图像;这很廉价,并且没有标注成本,但是合成图像缺乏逼真度,导致泛化到实际测试图像时效果欠佳。为了弥补这一性能差距,我们提出了一种新方法,可以改进合成图像使其看起来更逼真,并在不同的机器学习任务中取得了显著的精度提升。
概览
通过标准合成图像训练机器学习模型存在一定的问题,因为图像逼真度不够,导致模型只学习到了合成图像的细节,却无法很好地泛化到真实图像上。缩小合成与真实图像之间差距的一个方法是改善模拟器,这通常很昂贵和困难;即使最佳的渲染算法仍然无法对真实图像中存在的所有细节进行建模。真实度的缺乏导致模型对合成图像中的非真实细节产生了过拟合。我们可否不建模模拟器中的所有细节,而是直接从数据中学习呢?为此,我们提出了一种改善合成图像以使其看起来更逼真的方法。
图 1. 该任务是借助非标注的真实数据学习一个模型,从而提高来自模拟器的合成图像的真实度,同时保留其注解信息。
提高真实度的目标是使图像看起来尽可能地逼真从而提高测试的精度。这意味着我们要为机器学习模型的训练保留注解信息。例如,图 1 中的注视方向应该被保留,同时不生成任何伪影,因为机器学习模型可能对它们产生过拟合。我们训练了一个深度神经网络——「改善器网络(refiner network)」,用来提高合成图像的真实度。
为了训练改善器网络,我们需要一些真实图像。一个选择是需要若干对真实与合成图像,且二者之间的像素相对应,或者带有注解的真实图像,如上图中的注视信息。这无疑降低了问题的难度,但是这样的数据对很难收集。为了实现像素的对应,我们要么渲染一张合成图像以对应于一张给定的真实图像,要么反之。我们可以无需像素的对应或者不对真实图像做任何标注而习得两者之间的映射,从而降低成本使其易于推广吗?
为了以无监督的方式训练改善器网络,我们借助鉴别器网络(discriminator network)来分类真实与改善的(假的)图像。改善器网络试图愚弄鉴别器网络,使其相信改善的图像是真实的。两个网络交替训练,当鉴别器网络无法区分真实与虚假图像时,则训练停止。鉴别器网络的对抗式使用和生成对抗网络(GAN)原理相类似。我们的目标是训练一个改善器网络——一个生成器——从而把合成图像映射到逼真图像。图 2 给出了该方法的概述。
图 2. 我们的改善器神经网,R,最大限度地减少了局部对抗性损失函数与一个「自正则化」项(『self-regularization』 term)的结合。对抗性损失函数「愚弄」鉴别器网络,D,后者负责区分一张图片的真假。自正则化项最小化了合成与改善图像之间的差别。改善器网络和鉴别器网络交替更新。
我们如何保留注解?
除了生成逼真图像,改善器网络还保留模拟器的注解信息。比如,对于注视的评估,习得的变换不应该改变注视的方向。这一限制很关键,使得可以使用带有模拟器注解的改善图像训练机器学习模型。为了保留合成图像的注解,我们使用自正则化 L1 损失函数补充了对抗性损失函数,从而惩罚了合成图像与改善图像之间的大变化。
我们如何避免伪影?
制造局部变化
改善器网络的另一个关键需求是它可以引入任何伪影而学习建模真实图像的特征。当我们训练一个单一的强鉴别器网络时,改善器网络倾向于过度强调若干个图像特征以愚弄当前的鉴别器,导致了伪影的飘移和产生。一个关键的观察是,从改善图像采样的任何局部图像块应该具有与真实图像图像块相似的统计。因此,我们没有定义一个整体的鉴别器网络,而是定义了 一个独自分类所有局部图像块的鉴别器网络(图 3)。该划分不仅限制了接收域(进而限制了鉴别器的能力),还为每张图像提供了很多样本以学习鉴别器网络。改善器网络也通过拥有每张图像的多个真实损失函数值而获得了提升。
图 3. 局部对抗性损失函数的图式。鉴别器网络输出了一个 w × h 概率图。对抗性损失函数是局部图像块之间的交叉熵损失之和。
使用生成器的历史信息来改善鉴别器