欢迎访问Sunbet官网(www.sunbet.us),Allbet欧博官网(www.ALLbetgame.us)!

首页Sunbet_安全工具正文

小白带你读论文 & LEMNA: Explaining Deep Learning based Security Applications

b9e08c31ae1faa592019-12-13114安全工具

媒介

本次带来的是一篇信息平安顶会之一的2018 CCS Best Paper,重要论述的是作者完成了一种诠释深度进修决议计划缘由的要领:LEMNA。这一要领显著弥补了在平安范畴诠释要领的稀缺和低保真率的问题

背景学问

尽人皆知,深度进修在图片分类上有着比较显著的中心职位,比方:

当我们input一张图片给盘算机后,盘算机能够依据这张图片,输出形貌该图象属于某一特定分类的几率的数字(比方:80% 是机器人、15% 是人、5% 是电视机)。

而这一目的的完成,现在平常采纳的是CNN(卷积神经网络)。

然则,假如我们须要将雷同的目的,转换至平安范畴呢?比方歹意软件的分类:我们input一个文件给盘算机,盘算机是不是能够依据这个文件的信息,输出该文件属于某一特定分类的几率的数字呢?比方80%是一般软件、20%是歹意软件。

答案是明显的,但这里我们平常采纳的是RNN(轮回神经网络)。

那末CNN和RNN有什么区别呢?

我们能够如许简朴明白,关于CNN:

* CNN的假定:人类的视觉总是会关注视线内特性最显著的点。
* CNN神经网络是模拟人类处置责罚信息的历程,提取症结信息特性。

而关于RNN:

* RNN的假定:事物的生长是根据时刻序列睁开的,即前一刻发作的事物会对将来的事变的生长发生影响。
* 处置责罚历程当中,每一刻的输出都是带着之前输出值加权以后的结果。

那末为何关于平安范畴,我们倾向于运用RNN也一览无余,很明显顺序前后之间是存在关联的,前一段代码必将会对将来实行的代码发生影响,而RNN很好的能将这一点表述出来。

那末决议计划的诠释要领又是什么呢?

举个简朴的例子,关于CNN,我们适才说到,关于我们input的机器人图片,盘算时机给出如许的分类几率:80% 是机器人、15% 是人、5% 是电视机。如许的结果和我们所希冀的大抵一致。然则假如盘算机给出的分类几率为:99%是电视机,那末就会涌现分类毛病。

那末是什么缘由致使我们的深度进修分类决议计划失误呢?这里就须要运用诠释要领来举行剖析,找到毛病,并改正毛病。

举个简朴的例子:

比方图片a中,为何会把图a左侧这张图判定为橘子,是因为图a右侧高亮的像素点。

又比方图片b中,为何会把这一段话判定为悲观语句,是因为图b中红框高亮的一段话。

只要具有比较完善的诠释要领,我们才够充足信托分类器做出的决议计划,不然假如其决议计划对我们不透明,那末其分类结果也将变得不可托。

而关于诠释要领,我们能够也许分为两类,一种为白盒形式,一种为黑盒形式。

关于白盒形式,我们须要供应模子架构、参数、练习数据集,而关于黑盒形式,我们须要不停转变input,视察output,并得出影响决议计划的症结缘由。

那末很显著,白盒形式越发实用于CNN形式,同时大多数东西也是基于白盒形式,开发给CNN运用的。而黑盒形式越发实用于平安范畴。

研讨问题

本篇paper的研讨问题,就在于怎样诠释深度进修在平安范畴上分类决议计划的缘由。深度进修在平安范畴也逐步入手下手有比较广的运用,然则现在没有一个很好的诠释要领能够诠释其决议计划的缘由,就会使得我们丧失对分类器的信托。

因为CNN在图片剖析上的普遍运用,现有的大多数诠释要领全都是供CNN运用。但我们前面提到过,在平安范畴,RNN才是更适合的要领。

我们不可能将为CNN设想的诠释要领,用于RNN上,如许必将只能取得比较低可托度的结果。

作者起首剖析了一下现有的几款诠释要领:

不难发明,关于黑盒诠释要领,只要LIME有所触及,然则其对RNN / MLP的支撑并非异常好,同时其采纳的是线性回归模子。

那末什么是线性回归模子呢?

比方如许一只猫的图片,影响该图片被分类为猫的要素一定有许多,一般可斟酌以下的线性关联式:

在转变x的时刻,我们能够约莫探测出图中函数f的边境,如许就能够协助我们得知,转变哪些x的时刻,会对分类发生症结的影响。而其对应的特性,就是影响决议计划的症结特性。

然则作者发明,如许的体式格局,在关于庞杂模子的时刻,并不实用,存在比较大的偏差:

我们在用该体式格局处置责罚庞杂问题时,它会将每个特性视为自力的,但我们晓得这些特性必将是有互相关联性的,比方一只猫不可能只要耳朵,没有脸。

小白带你读论文 & LEMNA: Explaining Deep Learning based Security Applications  安全工具 第1张

其最好的要领不应该选用线性回归模子,还应该运用夹杂回归模子:

SQL Server 全局临时表竞争条件漏洞利用 在网络和应用程序渗透测试期间,SQL Server 全局临时表通常不是关注的焦点。 然而,它们被开发人员周期性地不安全地用来存储敏感数据和代码块,这些数据和代码块可以被非特权用户访问。 在本博客中,我将介绍全局临时表是如何工作的,并分享一些我们在实际应用程序中用于识别和进行漏洞利用的技术。 如果你不想通读所有的东西,你可以选择跳过: · 实验室设置    · 什么是全局临时表?    · 临时表是如何工作的?            · 练习1: 表变量           · 练习2: 局部临时表           · 练习3: 全局临时表    · 如何找到易受攻击的全局临时表?            · 源代码审计           · 监控全局临时表     · 案例研

简而言之,就是由多个线性回归模子构成的模子,如许才更好的探测出函数f的边境。

所以为了处理线性回归模子的弊病问题,作者尝试引入了夹杂回归模子。而为了处理特性之间的互相依赖关联,作者运用了fused lasso(责罚最小一乘回归)。如此一来,将夹杂回归模子和责罚最小一乘回归两者连系,即可比较圆满的处理LIME的弊病问题

实际评价

作者运用了夹杂回归模子和责罚最小一乘回归两者连系的诠释要领,重要剖析了以下两种状况:

1、诠释逆向工程中查找函数开头的决议计划缘由:即为何把这个位置标记为函数开头。

小白带你读论文 & LEMNA: Explaining Deep Learning based Security Applications  安全工具 第2张

例如在图片中,我们将这类图判定为猫的重要缘由,是因为右侧高亮的像素点,这是诠释器须要给出的缘由。

而在二进制文件剖析中也一样:

我们为何把83认定为函数开头位置,是因为其前面90的位置。这也是诠释器须要给出的缘由。

2、诠释PDF歹意文件分类的决议计划缘由:即为何把这个PDF判定为一般文件/歹意文件。

作者设置了以下数据集:

关于逆向工程,作者运用了2200个binary文件,在x86下应用gcc的4种差别优化形式(O0, O1, O2, O3)举行编译。

然后将数据集合70%用于练习,30%用户测试。

关于PDF文件,作者运用了4999个歹意文件和5000个一般文件,并从中提取了135个特性点。并将其也根据7:3分为练习集和测试集。

在结果上,我们能够发明具有相称高的准确度:

小白带你读论文 & LEMNA: Explaining Deep Learning based Security Applications  安全工具 第3张

除此之外,作者还对本身的LEMNA的诠释保真度举行了评价,即决议计划的重要缘由找的对不对。

为此作者设想了两大组试验:

第一组试验,作者运用了公式举行评价,即均方根偏差(Root Mean Square Error):

pi示意目的分类器分类为target的几率、pi-hat示意运用夹杂回归模子分类为target的几率。

那末RMSE越小,申明决议计划边境找的和目的分类器越一致。

作者运用LIME作为参照体:

我们能够发明,作者提出的LEMNA的边境寻觅准确度比前人事情LIME在逆向工程上高出了快要10倍,在PDF歹意文件分类上高出了5倍。这也充足证清楚明了夹杂线性模子对照线性形式的上风。

第二组试验,作者运用了以下3个小试验:

比方用图片举例,我们input进去一张图片(a),诠释器通知我们将这张图片分类为毛衣,而不是鞋子的症结缘由:图片(b)(症结像素已由红点高亮)

那末我们的3组试验分别为:

图片c:我们将诠释器得出的症结像素去除,再丢入分类器,假如分类器将其判定为非毛衣的可能性与我们去除症结像素的个数成反比,那末申明诠释器诠释的越准确。

图片d:我们仅留下症结像素,同时到场一双鞋子做滋扰,假如分类器将其判定为毛衣的可能性与我们到场症结像素的个数呈正比,那末申明诠释器诠释的越准确。

图片e:在图片d的基础上去除滋扰,在我们到场症结像素点越少的状况下,假如分类器已能够很高几率将其判定为毛衣,那末我们的诠释器诠释的越准确。

结果也证清楚明了,作者的东西具有最高的效力(图中红线为作者东西):

关于图片c形式的测试下,作者在仅去除5个症结点后,分类器的分类成功率就已在一个异常低的水准了,而其他前人的要领还在一个比较高的成功率,这充足申清楚明了,作者的诠释要领找到的症结要素才为保真度异常高的症结要素。

小白带你读论文 & LEMNA: Explaining Deep Learning based Security Applications  安全工具 第4张

同理,关于图片d和图片e形式下的测试,作者在仅用5个症结特性的状况下,就已让分类器达到了比较高的准确率,这也一样申清楚明了作者的东西诠释出的症结特性,具有更高的保真度。

总结

总得来说,本篇paper在平安范畴的深度进修决议计划诠释上填补了空白,同时其诠释的症结缘由具有异常高的可托度,结果也是远好过前人设想的诠释要领。

因为作者程度有限,文章中如有毛病,烦请指正,谢谢!

原文地点: https://www.4hou.com/technology/21994.html

网友评论