李恒超,林鸿飞,杨亮,徐博,魏晓聪,张绍武,古丽孜热·艾尼外.一种用于构建用户画像的二级融合算法框架[J].计算机科学,2018,45(1):157-161
一种用于构建用户画像的二级融合算法框架
Two-level Stacking Algorithm Framework for Building User Portrait
投稿时间:2017-05-08  修订日期:2017-09-02
DOI:10.11896/j.issn.1002-137X.2018.01.027
中文关键词:  用户画像,标签预测,短文本分类,多模型融合
英文关键词:User portraits,Tag prediction,Short text classification,Multi-model ensemble
基金项目:本文受国家自然科学基金(61632011,2,61562080,9)资助
作者单位E-mail
李恒超 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024  
林鸿飞 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024 hflin@dlut.edu.cn 
杨亮 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024  
徐博 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024  
魏晓聪 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024  
张绍武 大连理工大学计算机科学与技术学院信息检索实验室 辽宁 大连116024  
古丽孜热·艾尼外 伊犁师范学院电子与信息工程学院 新疆 伊宁835000  
摘要点击次数: 233
全文下载次数: 157
中文摘要:
      用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”。基于用户的查询词历史记录,提出一种用于预测用户多维标签的二级融合算法框架。在第一级模型中,分别在各个标签预测子任务上建立多种模型,使用传统机器学习方法与Trigram特征相结合来抽取用户用词习惯的差异,使用doc2vec浅层神经网络模型来抽取查询词的语义关联信息,使用卷积神经网络模型来抽取查询词之间的深层语义关联信息。实验表明,doc2vec在处理用户查询这样的短文本相关任务时有着相对较好的预测准确性。在第二级模型中,针对用户画像这样的多标签预测任务,使用XGBTree模型及Stacking多模型相融合的方法提取出用户各标签属性之间的关联信息,使得平均预测准确率进一步提高了2%左右。在2016年中国计算机学会(CCF)组织的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》中,所提二级融合算法框架在894支队伍中夺得了冠军。
英文摘要:
      User portraits are a kind of tagged user model constructed from user’s social attributes,lifestyle and consu-mer behavior,etc.The core work of building user portraits is to “tag” the user.Based on the user’s query word history,this paper proposed a two-level stacking algorithm framework for predicting user’s multi-dimensional labels.For the first-level models,a variety of models are built on each tag prediction subtask.The SVM model and Trigram feature are used to extract the differences of user’s words habit.The doc2vec shallow neural network model is used to extract the semantic relation information of the query words,and the convolution neural network model is used to extract the deep semantic association information between the query words.Experiments show that doc2vec has relatively good predictive accuracy in dealing with short texts related tasks (such as user queries).For the second-level models,the XGBTree model and the Stacking method are used to extract the association information between the label’s attributes of the user,so that the average prediction accuracy is further improved by 2%.In the big data competition “Sougou User Portrait Mining For Precision Marketing” organizated by China Computer Federation in 2016,this two-level stacking algorithm framework won the championship from 894 teams.
查看全文  查看/发表评论  下载PDF阅读器