1. 研究目的与意义
| 1.1 研究背景 用户画像是用来描述一个用户的“特性”,通过将用户信息标签化,直观地表现出一个用户的特征【1】。如今的大数据时代,用户在网上的浏览、点击、搜索、评论等碎片化行为记录被整理搜集并存储起来,这些信息直接或间接反映了消费者的性格、习惯、态度等信息,能被用来为企业实施营销提供决策依据【2】。简言之,用户画像为企业提供了大量的信息资源,帮助企业更精确快速地找到目标用户群并挖掘用户需求等更广泛的信息。 在现代广告投放系统中,用户的历史查询词是广告投放目标选择的一大重要依据,因为用户的历史查询与用户的基本属性和信息密切相关。如今可以实时获取用户的搜索语句,但由于用户对隐私的保护,无法直接获取用户的年龄、性别、教育程度等标签信息,只能通过大数据分析推测出用户的基本属性。 从目前国内外的研究现状来看,多层级用户画像生成算法是实现精确广告投放的重要技术之一【3】。其中,基于人口属性(包括性别、年龄、教育背景等基本属性)的广告定位技术是普遍应用于品牌展示广告和精准竞价广告的关键技术。
1.2 研究目的及意义 过去,大多数企业都会人工地对自己的用户群进行分类。但随着大数据时代的到来,用户信息量的指数式增长,商家和用户的行为进行了一系列的变化和重塑。因为用户画像可以更加直观、个性化地来描述用户的行为特征,故用户画像的挖掘显得尤为重要。同时,更加精确地挖掘用户属性,对于商家和企业来说,有助于了解自身产品的受众,并进行产品定位、设计相应的营销解决方案【4】。 消费方式的网络化使得用户追求尽可能多地获取自己需要了解的信息,所以用户画像的挖掘对用户和企业都是必须的,这将为两者之间搭建一个交流的桥梁。 如下图1-1,是企业进行人口属性挖掘的基本流程。
图1-1 人口属性挖掘流程图 |
2. 研究内容和预期目标
本课题要根据大量的用户查询词历史记录和用户的人口属性标签(年龄、性别、教育程度),将新增用户属性标签挖掘出来。
为了实现上述目标,实验主要运用了Spark大数据方面的相关技术,将大量的用户查询词历史记录和用户的人口属性标签(年龄、性别、教育程度)作为训练数据,通过用户搜索词分词、关键词提取、关键词向量化、分类与预测四个步骤将新增用户属性标签挖掘出来。
本课题提供了spark集群开发环境和原始数据集。
Spark集群环境见下表1-1:
表1-1 spark集群
| 节点 | 详细 |
| Node1 | 8G内存,角色:Master,HDFS NameNode,Spark Worker,HDFS DataNode |
| Node2 | 4G内存,角色:Worker1,HDFS DataNode |
| Node3 | 4G内存,角色:Worker1,HDFS DataNode |
数据集见下表1-2:
表1-2 数据集
| 数据文件 | 详细 |
| user_tag_query.2W.TRAIN | 带标注的训练集 |
| user_tag_query.2W.TEST | 测试集 |
数据来源于两万个用户的历史搜索词,数据格式见下表1-3:
表1-3 数据介绍
| 字段 | 详细 |
| ID | 用户的ID标识 |
| Age | 0:年龄未知; 1:0-18岁; 2:19-23岁; 3:24-30岁; 4:31-40岁; 5:41-50岁; 6: 51岁以上 |
| Gender | 0:性别未知1:男性2:女性 |
| Education | 0:教育程度未知; 1:博士; 2:硕士; 3:大学生; 4:高中; 5:初中; 6:小学 |
| Query List | 用户搜索词列表 |
下表1-4、1-5分别列出了两个数据集文件中的一条行数据示例:
表1-4 user_tag_query.2W.TRAIN中的行数据
| ID | Age | Gender | Education | Query1 | Query2 | Query3 | Qn |
| 22DD920316420… | 1 | 1 | 4 | 柔和双沟 | 女生 | 中财网首页 财经 | … |
表1-5 user_tag_query.2W.TEST中的行数据
| ID | Query1 | Query2 | Qn |
| EF229017E6C41… | 纹身图片男生小清新 | 为什么我英雄联盟号封了 | …… |
预期目标:
(1)提交1篇10000字左右的符合规范的毕业设计论文。
(2)翻译1篇与毕业设计题目相关的5000字左右的英文资料。
(3)毕业设计设计作品(包括系统实现说明书一份)、源代码一份。
3. 研究的方法与步骤
3.1.对用户的搜索词进行分词。
拟采用nlpir分词系统。
3.2.在分词的基础上,对文本进行特征的抽取与转换,以及降维。
4. 参考文献
[1] 牛温佳.用户网络行为画像[m].电子工业出版社,2016.
[2] 刘海,卢慧,阮金花,田丙强,胡守忠.基于“用户画像”挖掘的精准营销细分模型研究[j].《丝绸》,2015,52(12):37-42.
[3] pang-ning tan,michael steinbach,vipin kumar.《数据挖掘导论》[m].人民邮电出版社,2006-1-1.
5. 计划与进度安排
2022.1.5 ---- 2022. 2.28 查阅资料, 撰写开题报告
2022.3.1 ---- 2022.3.15 需求分析,熟悉开发工具
2022.3.15 ---- 2022.3.20 概要设计
