1. 研究目的与意义、国内外研究现状(文献综述)
1、本课题的意义信息的需求和搜索是一个学者工作的重要组成部分,学者需要查找相关信息,评估信息的质量,并在研究过程中使用信息。
检索和搜集信息对于学者工作研究来说具有重要的战略意义,所以了解学术用户的信息搜索行为也已成为一个日益重要的研究课题。
已经有很多文献去研究用户在搜索引擎检索信息时的用户搜索行为,如搜索结果相关性判断,满意或不满意度。
2. 研究的基本内容和问题
1、研究目标探究量化后的多维用户相关性模型 (murm) 的适用性;对学术用户的信息搜索行为进行特征分析,确定每一维度的重要性。
2、研究内容对2015/6/22016/12/31江苏省工程技术文献信息中心的日志数据进行清洗、html解析、会话识别、事务识别后;依据多维用户相关性模型 ( murm ) 编写每一维度的特征,将维度进行量化;基于ndcg指标,调用lambdamart排序算法对排序模型的整体性能进行判断,确定每一维度的重要性。
3、拟解决的关键问题(1)数据清洗:充分观察日志的特征提取相应的规则,严格按照预先定义的清洗规则,将原始采集的尚未经过清洗的脏数据,转化成为能够满足数据质量要求的数据。
3. 研究的方法与方案
1、研究方法(1)文献调研法对国内外关于信息搜索行为及会话识别的相关研究成果进行调查整理,为本研究奠定基础。
(2)实验法基于多维用户相关性模型 ( murm )对所获得的日志数据进行分析,探究每一维度对信息搜索行为的影响程度。
(3)统计分析法运用spss对实验结果进行可视化展现,使得结论更加清晰明了。
4. 研究创新点
(1)依据本实验日志数据的独特性,确定合适的会话识别方法。
(2)适合本实验针对现有多维用户相关性模型 ( murm ) 的不足及本实验日志数据的独特性,重新对模型的维度及每一维度的特征进行修改。
(3)针对模型的新颖性维度基于绝对和相对性进行更深层次的分析。
5. 研究计划与进展
第一阶段,对国内外的相关研究成果进行文献调研。
第二阶段,对所获取的日志进行数据清洗、html解析、会话识别、事务识别。
第三阶段,基于多维用户相关性模型 ( murm ) ,确定每一维度的量化指标及实现方案。
