Backgournd
搜索在20年前就已出现在互联网,而如今搜索已经无处不在。传统的搜索像这样,用户给出Query,Query中包含1个或多个关键词,搜索引擎通过关键词去检索返回查询结果。然而,在互联网上存在的资源早已是亿万级,所以仅仅用传统的搜索方法去返回给用户查询结果势必会存在大量用户不需要的结果,根据2007年”Tag recommendations in folksonomies”一文中提出不考虑用户偏好返回的搜索结果中仅有20%-45%是用户想要的,另外,用户所想查找的内容也可能远远不在结果的前列,所以,这类问题的解决需要在传统的搜索方法上考虑context-上下文,即,
简要概括:1.用户搜索返回的结果大量是其所不需要的;2.不同的用户提出同一个关键词,搜索引擎返回的结果都是同样的,而不同的用户使用同一个关键词所想搜索的意图其实可能是不同的.
将(1)用户的行为、习惯、兴趣/历史搜索结果等等;(2)资源上下文(3)任务上下文等因素考虑进去。
网络个性化用于四类:predicting web navigation, assisting personalization information, personalizing content, and personalizing search results
有两类方法:协同过滤和user profiles
协同过滤的缺点:这种方法能根据大多数人的兴趣推测什么是流行的,但不能预测某一个用户是否对新的页面是否感兴趣.
1.User Models
1.1 可以用来构建用户特征的有
a)内容方面:查询的关键词、网页的内容、桌面索引等等
b)行为方面:浏览的网页、tag 活动/直接或间接的反馈等
c)上下文方面:性别、年龄、地理位置、时间等
1.2 时间上分短期和长期兴趣(将两者结合起来,按时间分配权重)
1.2.1长期兴趣偏好建立方式:
行为:具体的查询和URLs
内容:语言模型/主题模型
1.2.2短期兴趣偏好建立方式:
搜索session的queries
1.3 用户分个体还是某类群体
Note:
a.在用户model中还需考虑的有长期和短期的兴趣,仅仅根据用户长期的兴趣来推测用户现在想要的搜索结果会有偏差.e.g.一个人之前搜索的”java”都是关于编程语言,但不排除他下一次搜索”java”是要找”java咖啡或者java 岛”.用户的兴趣会改变的.
b.对用户可profile的信息有:Clickthrough Histories/Queries Histories/搜索过网页的Snippets/收藏过的书签
c.Domain Ontological:所谓的领域本体(domain-specific ontology)就是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。由于知识具有显著的领域特性,所以领域本体能够更为合理而有效地进行知识的表示。
d.Folksonomy中的challenges:(1)用户标注的tags有很多的同样的拼写,不同意思的单词;有很多同义词;(2)怎么根据tags去对用户偏好建模(Tags聚类/VSM-空间向量模型/领域本体论(有一篇文章中将用户的tags映射到ODP(the Open Directionary Project)-Web topic ontology中))
—在Folksonomy中,用户标注的资源都是用户所感兴趣的资源,或者说用户所标注的资源都能代表用户的兴趣偏好;也就是说用户不再仅仅是web资源的消费者,同时用户可以通过承担web的一些任务同时方便其他web用户.(Folksnonomy这样一类系统代表性的有:Flickr.com/Delicious.com/Last.fm)
e.Clustering:聚类用于两个方面:切分和分层(分级).
f.Social Context:有一些预定义好的值,每个上下文的值都有具体的值.Verbal Context:历史查询/点击记录等
思路
1.可以入手的方面有三类:user model(long-term & short-term)/query的替换或扩充/resource(web resource)/privacy/evaluation/查询效率
2.可以选择的对象有两个:Server端和Client-Side端
用户相关性:
1.直接的显示反馈
2.隐式地从点击熵获得
用户潜在的意图:
1.上下文的元数据
Location/Time/Device
2.过去的行为
当前的session活动/长期的活动和兴趣偏好
基本的方法:
(1)对Query做扩展或替换
比如,用户正在浏览的关于汽车的页面,那么当他搜索“轮廓”时,会将Query的关键词添加“汽车”关键词,使返回的结果是用户想要找的汽车轮廓结果。
(2)对结果排序
根据user profile,进行相似度匹配对结果重新排序。
数据集
1.MovieLens(notations & ratings)
2.Delicious.com(bookmarks)
3.Flickr(notations)
4.DOMZ(ODP)—web search经常使用
5.BibSonomy(http://bibsonomy.org)
6.CiteULike(网页书签数据)
泛读论文时方法总结
其他方法:
1)2002年CIKM中将用户的Query分类
2)2003年”Scaling Personalized Web Search”根据用户兴趣给页面分配权重用图来计算,类似PageRank
3)2005年WWW”A Personalized Search Engine Based on Web-Snippet Hierarchical Clustering”对网页的Snippet做了聚类然后对结果再根据User Profile对查询结果再排序
(Snippet指的是网页的标题和摘要)
4)2005年WWW-“CubeSVD: A Novel Approach to Personalized Web Search”将用户的点击链接历史记录(who click which web page)作为user profile部分辅助查询.通过从点击链接记录数据中发现用户的兴趣和搜索信息的模式.
5)2005年CIKM”Implicit User Modeling for Personalized Search”User Model方法,完成了一个客户端查询代理.针对长期兴趣可能会改变的问题,本文中利用即时的搜索上下文和隐式的反馈来user model.
隐式的反馈信息有着两类:1)根据之前的查询寻找合适的term去扩展现在的query;2)利用用户已经看过的文档形成摘要来对没有看过的文档重新排序
6)2005年WI”Personalized Serach Based on User Search History”根据用户搜索历史对用户profile,利用User Profiles来对查询或者snippets分类,然后再对搜索结果重排序
7)2005年WI”Personaliezed Search Results with User Interest Hierarchies Learnt from Bookmarks”建立分层的user profile来对查询结果重新排序.
8)2005年DATAK期刊”Category ranking for personalzied search”在ODP分类基础上根据用户profile重新选择一个子图结构分类来personalize 查询结果
9)2006年WWW”Automatic Identification of User Interest For Personalized Search”利用用户历史点击记录构建user profile来对查询结果重新排序.
补充:2006年SIGKDD”Mining Long-Term Search History to Improve Search Accuracy”挖掘用户长期的搜索历史提出统计的语言模型
10)2007年WWW”A Large-scale Evaluation and Analysis of Personalized Search Strategies”评价Personalized Search对于传统搜索是否有提高,并且揭示了Click-Based方法优于profile-based方法
11)2007年CIS”Personalized Web Search Using User Profile”在Client-Side构建User Profile,然后对用户的Query根据Profile进行扩充使查询更具体,将Query提交给Search Engine.
12)2007WWW”Privacy-Enhancing Personalized Web Search”权衡用户隐私和个性化搜索的需要,将用户无结构的个人数据整合成有结构的User Profile
13)2007年SIGIR”Privacy Protection in Personalized Search”在个性化搜索时同时保护用户隐私,在Client-Side保护隐私比在Server-Client要好
14)2007年WI”Using Personalized Web Search for Enhancing Common Sense and Folksonomy Based Intelligent Search Systems”对于大众分类标签的这样的系统中,用户检索时对于其他用户标注的内容会检索到不相关的内容,本文利用搜索历史和兴趣分类来建立用户偏好
15)2008年CIKM”Matching Task Profiles and User Needs in Personalized Web Search”在Client-Side,同时结合用户之前的历史搜索结果和对用户建立不同粒度的profile.同时结合past search results(search histories)和current session context就弥补了只根据用户长期兴趣造成的缺点.
16)2008年WWW”Personalized Search and Exploration with MyTag”一篇DEMO完成了这样一个系统,根据flickr,YouTube和del.icio.us多个系统构造用户profile,在用户查询时完成返回多个平台的个性化资源结果.
17)2008年SIGIR”The Impact of History Length on Personalized Search”一篇DEMO基于任务研究web search(Task-based即限制了查询的方向,限制了查询任务),研究了搜索历史的长度对personalized search的影响.
18)2009年”Cluster Based Personalized Search”着手了两方面:利用文本聚类方法来Personalized Search和新的evaluation准则
19)2009年WSDM”Discovering and Using Groups to Improve Personalized Search”由于利用收集的个人信息来User Profile,但是由于通常User的个人信息通常不足够来构建,所以该篇文章利用其他用户来辅助收集用户个人信息.通过Query的相似性groupize一类用户
20)2009年TKDE期刊”Evaluating the Effectiveness of Personalized Web Search”测试了五种personalized search算法,提出了新的评价框架来测试是否personalized search对于不同的用户提出不同的queries在不同的搜索上下文中有没有用.(五种测试方法:2种Click-based和3种Topipcal-interest-based);并且,提出了现有的personalized search的缺点:大多数提出的算法都是运用到所有的用户和查询上(对于有些很明确的查询不需要应用personalized;personalization算法的有效性会根据不同的搜索上下文而不同;现有的论文中测试personalized search的算法是基于少量的参与者积累查询数据集,很少有在真是世界中数据集做测试)
21)2009年CIKM”Personalized Social Search Based on the User’s Social Network”利用用户的三种社会关系:家庭社会关系/相似社会关系/全部的社会关系来建立user profile
22)2009年CSE”Social Tagging in Query Expansion:a New Way for Personalized Web Search”对于社交网络和协标注系统利用协标注来对Query进行扩展
23)2009年Konwl Inf syst”Towards a graph-based user profile modeling for a session-based personalized search”提出了利用图结构来user profile
24)2010年WWW”Anonymizing User Profiles for Personalized Web Search”关于user profile的隐私保护
25)2010年”Applying Taxonomic Knowledge and Semantic Collaborative Filtering to Personalized Search: a Bayesian Belief Network based Approach”对于利用查询关键词匹配得到结果的方法而言,有些结果与查询有关而却与查询的关键字术语没有能匹配的结果往往会漏掉.该篇文章为了找出具有权威性的文本,通过语义协同过滤,用贝叶斯信念网络来代表用户的偏好,查询和相关的文本.
26)2010年CIKM”CiteData:A new multi-faceted dataset for evaluating personalized search performance”现在的personalized search系统使用了用户各种各样的特征数据如:文本超链接/分类标签等,将各种分类方法和社会标注结合起来,随之有分类/PageRank/协同过滤等算法来处理personalized search,但是对于这些方法的评价一直没有合适的数据集,所以该篇文章提出新的评价方法,利用多种多方面的数据来评价personalized search方法的表现.
27)2010年AMT”Folksonomy-Based Ontological User Interest Profile Modeling and Its Application in Personalized Search”在大众分类系统中,利用用户标注的tags并运用领域本体论来构建用户兴趣偏好
28)2010年ICDE“Personalized Web Search with Location Preferences”文中将用户偏好概念分为了内容概念和位置概念,本文不仅从搜索结果/点击率来构建内容上的兴趣偏好,还考虑了位置概念.
29)2010年WIC”Personalized Search based on a User-centered Recommender Engine”提出了将推荐系统和Personalized Search结合起来
30)2011年CIKM”A Framework for Personalized and Collaborative Clustering of Search Results”根据search results利用Wiki预料来聚类和协同过滤的方法来优化个性化搜索结果.
30)2011年WEBIST”A Multi-factor Tag-Based Personalized Search”提出了利用用户的tag activity(浏览过的网页和对网页分配的标签)来建立用户的偏好然后再重新排序搜索结果.
31)2011年IS的期刊”A personalized search using a semantic distance measure in a graph-based ranking model”用图结构(映射到ODP上)来表示文本和user profiles,基于语义距离测量来重新对搜索结果排序.
32)2011年UMAP”Leveraging Collaborative Filtering to Tag-Based Personalized Search”利用协同过滤的方法通过其他相似用户计算用户的潜在兴趣偏好,通过相似物品来构建物品的潜在tags.
33)2011年CSC”Modeling User’s Preference in Folksonomy for Personalized Search”在大众分类系统利用标签聚类来构建user profile
34)2011年Canadian AI”Normal Distribution Re-Weighting for Personalized Web Search”根据term的频率建立向量构建profile,但是同时重新对vector建立权重.因为频率大小对profile的影响是不一样的,其中,比较注重的是Mid-frequency.
35)2011年WWW”Personalized Search on Flickr based on Searcher’s Preference Prediction”一篇DEMO,基于Flickr系统根据用户的朋友的兴趣偏好和聚类方法来预测该用户所要找的图片.(e.g.用户搜索”长城”,返回118147张照片结果,但是,他/她所需要或想要的是哪一张或那几张需要自己去从中挑选)
36)2011年FSKD”User Profile for Personalized Web Search”利用三种机器学习方法(Rocchio/K-Nearest Neighbors/SVM)来构建user profiles
37)2012年ICCCI”Construction of Semantic User Profile for Personalized Web Search”完成这样一个系统,让用户输入用户名和邮件地址后从网页抓取和邮件地址相关的信息来构建user profile(使用VSM)(依据ODP).
38)2012年APWeb”Context-Aware Personalized Search Based on User and Resource Profiles in Folksonomies”指出了之前运用于Folksonomy系统中建立VSM后TF-IDF和BM25方法的不合理之处.
39)2012年Information Systems期刊”Folksonomy-based personalized search and ranking in social media services”同时利用面向用户的tags和面向items的tags构建模型,构建user-tag矩阵/user-item矩阵/tag-item矩阵;对于查询的term没有出现在标注中的情况也能够对结果重新排序
40)2012年”Multilingual User Modeling for Personalized Reranking of Multilingual Web Search Results”用多语言来构建用户模型.
41)2012年ADMA”Personalized Diversity Search Based on User’s Social Relationships”针对搜索引擎由于不能领会用户潜在的意图和兴趣偏好,所以不能返回给用户精确/充足,且伴随有累赘的结果.现有的方法有返回多样性的结果来满足大部分用户,并且统一地运用到所有的用户和查询中,返回的结果通常返回的是大部分用户的需求,对于某个用户的具体需求并没有被考虑进去.本文将多样性搜索和个性化搜索结合来使搜索结果对于群体和某个用户来说更加精确.
42)2012年SIGMOD”Taagle:Efficient,Personalized Search in Collaborative Tagging Networks”用户带有在社交网络中的权值,items带有用户的关键词标注,用户用某一个tags来搜索返回Top-k个结果
43)2013年SIGMOD”Efficient Ad-hoc Search for Personalized PageRank”对PPR做了改进
44)2013年WWW”Enhancing Personalized Search by Mining and Modeling Task Behavior”提出之前在Personalized Search中都是比较依赖和用户历史查询记录相关信息,对于新的查询可能会无所适从;本文提出了Task-based(基于URLs)的方法,通过在历史搜索日志中挖掘出提出过和当前用户任务相关的用户,利用他们的on-task行为来提升web pages的排序.并将算法和Query-based进行对比
45)2013年(LiQing)WI-IAT”Finding Dominating Set from Verbal Contextual Graph for Persoanlized Search in Folksonomy”对于去挖掘用户潜在的意图和兴趣偏好,基于上下文的信息是不可或缺的,在社会语言学中上下文中分为Verbal Context(queries历史/点击历史数据)和social context(mood/weather/time).通过对比了social context之后,作者选用了verbal context语言模型,verbal context模型用图结构构造,并将重要的节点区别出来.
46)2013年SIGKDD一篇DEMO”LAICOS:An Open Source Platform Personalized Social Web Search”1.利用了文本内容来建立social context2.和之前方法一样也用了对query进行扩展的方法.当用户提出一个query,系统会根据用户experience匹配query,同时,系统还会根据其他提出过相似查询的用户来返回相似的文档
47)2013年CIKM”Personalized Models of Search Satisfaction”这篇文章通过区分不同用户的搜索行为来建立用户的满意度,从而使个性化搜索更为准确.(依赖于点击数据)
48)2013年SIGIR”Personalized Ranking Model Adaptation for Web Search”针对之前搜索引擎对所有的用户都运用单一的排序模型而提出了新的排序模型(通过一系列的线性转化,缩放或者转变)
49)2013年ICCCSA”Personalized Semantic Search Using ODP:A Sutdy Case in Academic Domain”将文本大致分类到相应的实体ODP来完成语义搜索
50)2013年SIGIR”SoPRa: A New Social Personalized Ranking Function for Improving Web Search”提出了新的搜索结果等级排序函数
51)201年SIGIR”Using Social Annotations to Enhance Document Representation for Personalized Search”基于用户查询过的网页,不仅仅基于该用户对其的标注,而且考虑其他用户的标注.因为如果只考虑该用户的标注存在两个问题:1)忽略了他没有标注的页面2)分配的等级分数不合理
52)2014年WSDM”Adapting Deep RankNet for Personalized Search”:RankNet被广泛地应用在web搜索任务中,但是很少有应用在Personalized Search中.本文利用5层深度神经网络来构造RankNet运用于Personalized Search中.
53)2014年KDD”Personalized Search Result Diversification via Structured Learning”利用有监督学习来解决搜索结果个性化多样性的问题,既保持结果的多样性,同时结合用户的兴趣偏好
54)2015年”Adaptive and Multiple Interest-aware User Profiles for Personalized Search in Folksonomy:A Simple but Effective Graph-based Profiling Model”基于图结构利用社会标注的tags构造自适应的且融合多种用户兴趣偏好的user profiles.
55)2015年WWW”An Optimization Framework for Weighting Implicit Relevance Labels for Personalized Web Search”提出了之前给web document分配权重的不合理之处,另外重新提出了personalized ranking算法.
56)2015年”Real Time Personalized Search on Social Networks”提出了在社交网络平台中两个特点1)频繁的内容更新2)小社区群体;而现有的搜索算法都还不能解决这样两个问题,本文提出了实时的personalized top-k查询(等级排序算法融合了时间/社会相关性/文本相似性).加入了时间因素
57)2016年SIGKDD”How to Get Them a Dream Job”主要针对Job Personalized Search.
58)2016年SIGIR一篇DEMO”Learning to Rank Personalized Search Results in Professional Networks”在领英中提出新的结果等级排序算法.
59)2016年Neurocomputing”Personalized search for social media via dominating verbal context”Qing Li同之前篇
60)2016年Knowledge-Based Systems”Preference recmmendation for personalized search”综合之前的user profiles模型,本文指出使用比较广泛有一个CP-nets模型,不仅能简明地表达用户定性的兴趣偏好,而且很好地定义了用户偏好的范围.现在很多基于CP-nets的搜索系统都是假设用户之前已经定义好他们的兴趣偏好范围,但是在生活中这并不现实.本文的工作一方面利用不完全的CP-nets,另一方面利用协同过滤来弥补CP-nets的不足.还有一方面,本文提出偏好推荐模式来弥补CP-nets的不足.
61)2016年”Topic Model based Privacy Protection in Personalized Web Search”本文在保持搜索引擎个性化的同时,通过在用户查询日志中加入控制噪声来保护用户隐私.