推广

NeurIPS 2020|基于能量的OOD检测

iseeyu2年前 (2025-01-04)推广116

原文:Energy-based Out-of-distribution Detection

文章链接:https://arxiv.org/abs/2010.03759

该文章收到了LeCun的点赞与转发,LeCun点赞华人女科学家--使用能量模型替代Softmax函数!_腾讯新闻

Motivation & Related Works

当机器学习模型看到与其训练不同的输入时,就会出现out-of-distribution (OOD) uncertainty,因此模型很难对他们进行正确预测(也即在与训练数据分布差距较大的数据点上表现极差)。对于将ML应用于安全关键的应用(如罕见疾病鉴定)而言,确定输入是否超出了分布范围是一个基本问题。 OOD(Out-of-distribution)检测的传统方法之一是基于softmax confidence。直觉上来看,对于in distribution的数据点,我们有高可信度给他们一个结果(就分类问题而言即将一张猫的图片分类为“猫”的概率很高),那么可信度低的就是OOD inputs。但是因为DNN在样本空间的过拟合,经常会对OOD的样本(比如对抗样本)一个很高的可信度。

另一种检测方法是基于生成模型的,这类方法从生成建模的角度推导出似然分数,主要利用 Variational Autoencoder 的 reconstruction error 或者其他度量方式来判断一个样本是否属于 ID 或 OOD 样本。主要的假设是,Autoencoder 的隐含空间(latent space) 能够学习出 ID 数据的明显特征(salient vector),而对于 OOD 样本则不行,因此OOD样本会产生较高的 reconstruction error. 这类方法的缺点在于生成模型难以优化而且不稳定,因为它需要对样本空间的归一化密度进行估计。

Contribution

在本文中,作者使用energy score来检测OOD输入,ID的数据energy score低,OOD的数据energy score高。作者详尽证明了energy score优于基于softmax的得分和基于生成模型的方法.相比于基于softmax可信度得分的方法,energy score不太受到NN在样本空间过拟合的影响。相比于基于生成模型的方法,energy score又不需要进行显式的密度估计。

Background:Energy-based model

基于能量的模型(EBM)的本质是构建一个函数,它将输入空间中的每个点映射到一个称为能量的单个non-probabilistic scalar。通过Gibbs分布我们可以将能量转化为概率密度


分母被称为配分函数,是温度参数。此时我们可以得到任意点的自由能为


我们可以轻易的联系分类模型与能量模型,考虑一个类的NN分类器将输入映射到个对数值,通过 softmax 归一化得到属于某一类别的概率,分类分布如下


这里的即的第个值,而此时我们可以定义能量为即负对数。同时我们可以得到关于的自由能


这里需要强调一下,这个能量已经与数据本身的标签无关了,可以看作是输出向量 的一种范数。

Energy-based Out-of-distribution Detection

我们知道OOD detection实际上就是一个二分类问题,判别模型的密度函数可以写作


其中配分函数是未知的归一化常数,是intractable的。幸运的是


因为是样本独立的,不影响总体能量得分分布,所以说和数据点的负对数似然是线性对齐的,低能量意味着高似然,即更有可能是ID数据,反之更有可能是OOD数据。这涉及到一个阈值,比较empirical,这里不多说。

此时我们可能会想到,这比softmax函数好在哪里呢?不妨写出softmax分类的形式


当的时候,这其实就是 如果再进行一步化简我们可以得到


后两项并不是一个常数,相反对于一个ID的数据,其负对数似然期望是更小的,但是这个分类置信度却是越大越好,二者冲突。这一定程度上解释了基于softmax confidence方法的问题。

那么能量模型如何进行训练呢——通过分配较低的能量给ID数据,和更高的能量给OOD数据,明确地创造一个能量差距。总体的损失函数如下


其中是分类模型的softmax输出,即标准的交叉熵分布加上一个能量约束项。



即用了两个平方的hinge loss来分别惩罚能量高于和能量低于的ID/OOD数据。这里也即该方法的另一个好处,可以利用没有标签的OOD数据帮助训练。一旦模型训练完成,我们就可以按照按照能量进行OOD检测。

Experimental Results

实验中有一点需要注意,作者采用了两个setting

  • No fine-tune: 使用backbone的输出,只是将softmax confidence换成能量得分。注意样本的能量我们定义为,其中即backbone的第维输出。
  • Fine-tune:使用上述的损失函数对backbone进行fine-tune,然后使用energy score进行OOD检测。

实验统一使用WideResNet作为预训练分类模型,在六种OOD数据集上的表现如下,可以看到在不进行fine-tune的情况下基本碾压了基于softmax confidence的方法。有fine-tune的情况下,也比目前的sota-OE好很多。不过这里需要指出表格中标注的应该指的是训练集,因为作者也提到了下表是"We use WideResNet to train on the in-distribution dataset CIFAR-10.".



作者进一步比较了各种方法之间的差距,可以看到即使不使用fine-tune,只是将softmax confidence换成energy score效果就已经很不错了,进行fine-tune之后更是惊为天人。



同样还有与生成模型的比较,metric是the area under the receiver operating characteristic curve (AUROC)--越高越好。



扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/130354.html

相关文章

虚拟主机对SEO优化是否有影响。

虚拟主机对SEO优化是否有影响。

网站上的死链接是无效链接。如果网站有一个非常死的链接,它将损害网站的整体形象。一起输入的页数将大大减少,并且搜索引擎中网站的权重将大大降低。那么我们如何去检查一个网站死链?以下是本人针对优化的经验总结以下几点针对死链处理方法。 网站死链的检测及处理方式 一,显示死链接的情况 1,网...

每日优鲜产品分析报告

每日优鲜产品分析报告

2020年7月23日,每日优鲜宣布完成新一轮4.95亿美元融资,该笔融资也是生鲜到家行业目前最大规模的融资,这一次的巨额融资将每日优鲜推向了风口浪尖。 2014年11月,每日优鲜以新颖的“前置仓”模式,迅速圈层并挤入生鲜电商市场,用最快的速度成为行业独角兽。 截止到目前,这是每日优...

发布|2020中国独立财富管理公司TOP20榜单(上半年)

基销销售机构,俗称“独立财富管理公司”,简称“三方”。因区别于银行体系的私人银行部和银政保的财富管理部门,又因标榜其金融产品推介的“独立性”,故一直被称其为“三方”。2003年,湘财证券私人银行部解散,其总经理汪静波被迫离职创立诺亚财富,标志“三方”行业的诞生。随后宜信财富...

以客户网站及产品推广为基础 ,撰写有意义的搜索引擎营销推广方案。

以客户网站及产品推广为基础 ,撰写有意义的搜索引擎营销推广方案。

撰写优秀的推广方案,不仅有利于提高客户满意度,还可以锻炼我的搜索引擎推广项目管理能力。首先,我们要明白搜索引擎优化方案的意义必须以客户满意度为基础,而规划的内容应该以客户网站或产品推广点为基础,这样才能编写出真正满足客户需求的搜索引擎营销推广方案。 搜索引擎营销要写一个优秀的搜索引擎营销推广方...

PubMatic IDFA授权现状研究报告:目标受众定位技术助力提升广告效果。

PubMatic IDFA授权现状研究报告:目标受众定位技术助力提升广告效果。

谷歌日前披露,将把淘汰第三方Cookies的计划推迟至2024年。随着谷歌不断推迟该计划,一些媒体购买方开始质疑使用第一方数据和替代标识符的重要性。然而,致力于提供前沿数字广告供应链的独立科技公司PubMatic(纳斯达克股票代码:PUBM)近日发布的一项关于苹果系统广告标识(IDFA)授权的报告...

六大策略与技巧,让我们更高效在领英(LinkedIn)开展线上营销

六大策略与技巧,让我们更高效在领英(LinkedIn)开展线上营销

领英(LinkedIn)现已经成为外贸人员,尤其是B2B外贸营销人员,一个重要且有效的社交媒体平台。领英相比于其他的社交媒体平台,在增加流量、产生高质量的潜在客户和建立思想领导力方面有着独有的优势。它不仅仅是获取更多的潜在客户,还可用来主动开发客户,帮助维系客户关系。最最重...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片