基于文本内容的垃圾短信识别算法开题报告

 2021-08-14 02:08

1. 研究目的与意义(文献综述)

近年来,随着移动通信技术和移动互联网的发展,手机已越来越成为人们日常生活的必需品,短信作为一种重要的通讯方式也渗透到了日常生活中.然而一些商业机构及不法分子却利用垃圾短信进行牟利,由于垃圾短信发送成本较低、垃圾短信推送者利用技术手段逃避监管等原因,造成了垃圾短信泛滥.这些垃圾短信占用了大量的网络资源,而且来及短信中充斥着大量的广告短信、诈骗短信、骚扰短信、煽动短信等,已经严重影响到人们正常生活、运营商形象乃至社会稳定.因此,我们要研究准确、高效、可靠的垃圾短信过滤系统,对包含不良信息的短信进行过滤.从而保证人们的正常生活,促进社会安全稳定.

目前常用的垃圾短信过滤技术有三种.

(1)黑白名单过滤技术.黑名单主要借由两种方法来完成:一种方式是在手机使用者上设立黑名单或白名单来完成垃圾短信的过滤,另一种是在运营商的smsc系统上设立黑名单或白名单来完成垃圾短信过滤的目标.黑名单中的号码发送的短信将会被拒收,白名单中的号码发送的短信将会被接收.这种方法虽然简单,但黑名单和白名单的设立比较麻烦,且功能过于单一,不法分子可以通过使用一些特殊手段躲避黑白名单的拦截.比如用动态号码.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本课题结合机器学习算法、大数据分析挖掘来分析文本内容,智能地识别垃圾短信及其变种。基于短信文本内容,准确地、完整地识别出垃圾短信、正常短信。用准确率、查全率、效率(每秒处理条数)衡量。考虑到现实环境中数据量巨大,要同时考实现算法的单机版和并行版。

(1)算法采用python语言开发

(2)算法的输入和输出用mysql进行存储和管理

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)2016/1/11—2016/1/22:查阅参考文献,明确选题;

(2)2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;

(3)2016/3/8—2016/4/26:需求分析,算法或系统设计,分析、比较或实现等;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1][英]维克托.迈尔-舍恩伯格等,大数据时代-生活、工作与思维的大变革,浙江人民出版社,2013

[2]王斌译,大数据:互联网大规模数据挖掘与分布式处理,人民邮电出版社,2012,第一版

[3]peterharrington著,李锐/李鹏/曲亚东/王斌译,机器学习实战,人民邮电出版社,2013

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。