|
文献综述: |
|
目前针对垃圾短信的处理方式分别在发送端,传递链与接收端都有相对应的解决方式,尤其对于客户端而言,基础垃圾短信预防成为过滤过程中最重要的途径之一,针对于短信息发送特点,短信文本筛选已经提出了多种解决办法,对于一般短信通过数学概率论分析,可匹配大多数特征以提供结果,随着科研技术的不断深入,目前基于神经网络的机器学习及相关算法具有十分理想的筛选效率,辅以云端告警及发送端统计识别等方式,垃圾短信的处理效果十分显著。 2.1 基于文本关键字的筛选方法 钟延辉与何孝金的论文着重研究了基于文本挖掘的垃圾短信筛选方法(文献【4】与文献【6】),论文研究的重点在于提取文本特征与语义特征,文本特征指的是短信文本的数据项,即每一段信息的元数据。文本特征包括信息中的数据型文字,比如日期,所占大小等等;语义特征指的是文本信息的架构特征,比如发送者,信息本体等等。相较而言,基础性的文本特征提取要比语义性特征更容易提取,但相对应的错误率与阻塞误检率也会大大增加。 论文通过四个部分实现文本特征抽取,即文本预处理,分词,降噪,特征表示。四部分的主要目的是进行初步的乱码符号筛选,并且将全信息进行词条切分,将文本信息划分为一系列有意义的词。目前比较常用的分词算法为庖丁算法,为我国的高等院校所研究,针对此算法,中科院计算所开发出一款性能良好的分词系统ICTCLAS,分词准确率可达97.58%,分词召回率可达90%,特殊词识别可达98%,处理速度达31.5KB/s。 文本去噪是为了剔除文本中的干扰词,例如一些网络词语或者不再使用的词,以提高过滤的精度,根据吴世竞与Harisinghaney的论文(文献【13】与文献【15】),主要提出了五种过滤处理方式,包括非法字符过滤,异形词过滤,冷门词过滤,特殊词过滤,稀有词过滤。通过这些过滤方式,将短信文本处理得更加直白与清晰,便于机器识别与分类,去噪处理提升了整个系统进一倍的处理速度与精度,减少了噪音因素对于短信文本的干扰,节约分类过程之中的时空开销,尤其是对于短文本信息效果更加明显。 对于文本与语义特征的统计,论文中主要提出的是基于数学统计的方法,包括统计量CHI,文本证据权WET,互信息MI,几率比CC,信息增益IG,期望交叉嫡ECE等。其基本思想是构造一个评价函数,利用使用评价函数评估每一个特征集中的独立特征,依据特征评估值对特征进行大小排序,提出预定数目的最佳特征为特征子集,组成一个新的低维空间,同时没有改变原始特征空间的性质。 对于基于文本的分析过滤方法,崔高侠的论文(文献【14】)同时提出了黑白名单的过滤方式,黑白名单主要依赖于用户操作,使手机本地系统做到屏蔽此号码的信息,自动丢弃屏蔽号码发布的信息,但是黑名单缺点在于过度依赖用户操作,而且会造成越来越多的名单号码,无论是用户使用还是系统资源都会造成极大影响,而白名单又具有极大的错误率,在实际使用过程中应用价值不大。关键字实现较为简单,但是仅仅依靠关键字库进行短信筛选,其准确率不高,而且具有很大的不确定性,垃圾信息发送者也很容易取得应对办法,例如将敏感词换为同音词。 2.2 基于云端的过滤方式 黄诚与Gayathri的论文专注于云端垃圾短信处理,在传递过程中对垃圾短信进行过滤摒弃(文献【3】和文献【9】),论文分析了短消息传递机制,及手机终端之间的全球数字移动电话短消息服务系统(SMSC),短信服务中心用来作为文本信息转发和存贮的媒介,同时进行用户之间的短信息接收和发送任务。短信内容被限制在160个字符,短信服务中心的存在使得短信发送并不是实时的,而是有一定的转发延时,这也就提供了云端短信过滤的可能性。
图1 SMSC工作机制 针对于此思想,论文提出了短信服务中心解决方案,其建立在一个智能的网络方案基础之上,将短信传送应用于无线终端,并且从无线终端发送短消息。短信服务中心作为核心部分,起到存储和转发短信的枢纽工作,作为通信基础设施传递信息的方式主要有信令寻址与无线站点的方式。这样的方案既确保了短信发送的基本功能,同时也为无线短信服务提供了多对多的传送机制,使得信息可以在多个发信人与收信人之间互传。 张琛与黄诚论文中对云端处理垃圾短信方法进行了详细的论述(文献【3】与文献【5】),短信的一般发送方法有两种,一种是由服务提供商SP到手机,另一种是手机到手机,两种传送方式有相同的工作原理,是通过运营商提供短信号码,用户制定短信增值业务,并按照服务提供商的要求向其发送定制短信,然后由运营商发送给相应用户,短信资费有服务提供商定制,这种方式具有随意性,缺少有效的预防方式,因此对于垃圾短信的传播有一定的影响,垃圾短信传播的成本低廉。 基于云端的过滤方式处理方法主要有两种,一种是通过网络中心的过滤方式,另一种是基于移动手机的反馈调节机制。具体的方法主要有SMSC实时监控,短信发送状态监测,随机验证码,运营商可以凭借已经拥有的软硬件资源和手机终端的短信发送数量,依据提前设置的阈值从而决定是否进行屏蔽与告警,SMSC也可通过监测短信的实时转发和存储过程,进行实时反馈,从而实现对于有害信息的过滤。有些垃圾短信需要成批量大量生成与发送,这样也可以作为监视的条件之一,发出的短信不是由自由人编辑就会带有一定的机器生成痕迹,通过SMSC发回的认证信息,机器无法识别,只用通过人工才可以进行验证与检测,这也是验证码识别的基础机制,此类方法能够较好的阻止群发的垃圾短信。 另一种反馈机制是通过网络服务中心通过提供短信交换网关,可以进行源头信息筛选,其工作模式主要是基于关键字敏感词进行实时监控,并对执行结果进行实时更新,这种监控模式通常是基于短信息状态以及短信息内容识别相结合的管理模式,是目前服务端采用的最常用的过滤方式。 2.3 基于内容的过滤方式 基于内容过滤方式是目前国内外最常用的一种办法,通过应用机器学习与相对应的算法来实现垃圾短信的过滤与筛选,根据汪健的论文与《SMS Spam Detection using Machine Learning Approach》的主要研究内容(文献【16】与文献【12】),解释验证了相应的过滤算法。前国内外针对垃圾短信筛选过滤的有效算法主要有:贝叶斯算法,向量机,K-邻居算法,森林算法等等。通过国外学者的相关学者的研究实验,对比不同算法的运行效率以及仿真结果,对于一组4450个样本分析对比发现,具有拉普拉斯的多项式贝叶斯算法具有更佳的性能,可以达到97.64%的准确度,具有线性内核的向量机检测算法次之,具有97.50%的准确度。同时通过调整综合运用不同算法的应用,协调各个算法的优点,可以使分类算法减少一半以上的错误率。这种方法主要应用自学习机制,通过系统特征库,不断引入新的学习特征,因此算法实现较为复杂,但是其过滤效果也可见一斑。目前国内外研究系统主要采用此方法。 Houshmand Shirani-Mehr 在其论文中所描述的贝叶斯分类算法,其内容为将每一个数据样本用一个n维特征向量进行表示,通过最大后验概率转化为最大先验概率,假设各属性的取值相互独立,那么先验概率即可总训练数据集中所求得,利用概率统计知识进行分类,假设一个属性值对给定类的影响,其方法简单迅速。通过实验,增强的朴素贝叶斯算法可以达到94.5%的准确度,其测试集情况误差在可接受范围内。 MI,即互信息作为特征选择方法,其计算公式为:,其中,A与c表示同时出现的次数,B与t表示c未出现的次数,若有k个类型,则对于每一个t都有m个不同的值,取平均值便得到一个特征选择的现行序列。IG,即信息增益,其计算公式为:,是通过对某个特征项在文本中出现或者不出现的次数进行统计,从而预测文本类型。 支持向量机(SVM)是一种基于统计学习理论的机器学习方法,该算法可用于解决数据分类的问题,其主要思想是通过寻找一个超平面,并利用这个超平面将两个不同的类别分开,并且期望两个类别的样本距离具有该平面的最大空间距离,该方法巧妙的避开了因为低维空间向量划分困难的问题。K临近方法(KNN),其主要思想是通过类比学习,如果一个样本在特征空间的K个最相似的样本中大多数属于某一个类别,那么该样本也就属于这个类别。 2.4 目前关于垃圾短信的相关法律规定 根据陈刚和崔高侠的论文可知目前法律对于垃圾短信的规定及处理方式(文献【8】和文献【14】),我国政府针对垃圾信息处理发布了一系列方案以综合管理其不当行为,维护信息业务的有序进行。《中华人民共和国电信条例》通过以下九个标准划分垃圾短信: 1)反对宪法所确定的基本原则的; 2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的; 3)损害国家荣誉和利益的: 4)煽动民族仇恨、民族歧视,破坏民族团结的; 5)破坏国家宗教政策,宣扬邪教和封建迷信的; 6)散布谣言,扰乱社会秩序,破坏社会稳定的; 7)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的; 8)侮辱或者诽谤他人,侵害他人合法权益的; 9)含有法律、行政法规禁止的其他内容的。 同时,国家工商行政管理总局同信息产业部联合发布《关于禁止发布含有不良内容声讯或短信息等电信信息服务广告的通知》以制止垃圾信息的散播。在法律法规方面,目前无论是国内还是国外都制定了相关的要求,各国政府或以实名制方式,或以严格立法方式,或以与运营商合作的方式,或以制定短信服务规则方式来加强对于手机短信息的管理与规范。 2.5 总结 目前处理垃圾短信的方式有很多,针对于文本选择分析的算法种类也十分繁多,不同的算法受制于时代背景与信息发展,其效率是不断变化的,在实际应用过程中也会受到资源,环境,安全等因素制约,因此,综合使用各个算法,将其应用到所适合的环境可最大限度的发挥其效用。对于机器学习而言,对数据的测试与训练更加重要,所以无论是采用何种途径,何种方式进行垃圾短信过滤,都要不断的更新维护训练集和相关系统,从而取得更加理想的效果,以充分发挥SMSC与筛选算法的作用。 参考文献 [1] The Spamhaus Project. http://www.spamhaus.org, 2012. [2] Paolo, Rosso. Detection of Near-duplicate User Generated Contents: The SMS Spam Collection[D]. Spain:DSIC Universidad, 2010. [3] 黄诚. 智能手机垃圾短信过滤 技术[D]. 湖北:华中科技大学, 2012. 1-49 [4] 钟延辉. 基于文本挖掘的垃圾短信过滤方法[D]. 西安:电子科技大学, 2009. 1-71 [5] 张琛. 基于 Android 的垃圾短信过滤系统[D]. 南京:南京邮电大学, 2012. 1-58 [6] 何孝金. 垃圾短信过滤系统的设计与实现[D]. 成都:电子科技大学, 2009. [7] 钟延辉. 基于文本挖掘的垃圾短信过滤方法[D]. 成都:电子科技大学, 2009. [8] 陈刚, 刘秉权, 吴岩. 改进的决策模型在手机垃圾短信过滤中的应用[J]. 计算机工程与设计, 2012, 33(12):4701-4706. [9] Suku, Nair. Semi-Synthetic Data for Enhanced SMS Spam Detection[D]. Engineering Southern Methodist University:HACNet Labs, 2012. [10] Mengke, Feng. A Distributed Chinese Naive Bayes Classifier Based on Word Embedding[D]. Beijing: Beijing University of Post and Telecommunications, 2016. [11] Jianming, Xu. A mobile phone short message spam filtering method based on Naive Bayes using word occurrences table[D]. Shaoyang:Shaoyang University, 2013. [12] BiyiRen. Research On Spam Filter Based On Improved Naive Bayes and KNN Algorithm[D]. Beijing:Beijing University of Technology, 2014. [13] 崔高侠. 基于信令监测的垃圾短信监控平台设计和实现[D]. 山东:山东大学, 2013. 1-43 [14] 吴世竞. 垃圾短信过滤系统的设计与实现[D]. 北京:北京邮电大学, 2012. [15] 汪健, 黄大荣, 吴鹏,等. 分布式处理下多技术融合的垃圾短信过滤模型[J]. 计算机测量与控制, 2013, 21(10):2811-2813. |
