1. 研究目的与意义
社交网络愈发火热,微博已成为了(中文领域)人们相互交流最重要的在线方式之一。
在这里,人人都可以发出属于自己的意见与观点,也可以听到别人发出的声音。
它的两大特点便是巨大的信息量和碎片化的信息。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 国内外研究现状分析
目前国内外有关网络爬虫技术方面的研究主要由以下几个方向:1基于整个万维网的信息抓取2基于主题的信息爬取3增量式信息爬取4分布式网络爬虫
3. 研究的基本内容与计划
研究内容: 主要内容是开发一个针对新浪微博的数据抓取与分析系统。
可以根据自我的需求对特定的微博数据进行抓取后进行再分析(利用爬虫和微博的公开api均可),从而可以形成情感分析,用户刻画,热点话题检索,火热关键词以及时下游行网络用语等功能的延伸。
研究计划: 1.准备工作阶段:阅读 web 开发的相关资料,了解开发的基本知识,完成初步框架设计; 2.设计开发阶段:相应数据处理计算的选择,设计表单、图表的展现形式,完成系统的功能和交互设计,并完成系统开发工作以及进行系统自测; 3.撰写论文阶段:根据前期的设计以及最终实现的功能,完成论文的撰写工作,详细描述应用实现的功能,并对论文中的图表按照论文格式进行调整和编号; 4.论文交审阶段:完成论文的提交,审核和答辩。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
1 提出可通过网络爬虫来获取微博内容的方案2 可以通过调用API接口来实现数据的便捷抓取与解析3 使用MyEclipse开发,具有易操作性,JAVA工程师可以很快的熟悉
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
