Duncan's Blog

社交网络中抽取有代表性的用户

1.为什么要做这个问题

1.1 从社会应用角度

  • 在HCI(人机交互)中,实施调查和去获得用户的反馈都是主要针对有代表性的用户.
  • 代表性人物的行为习惯和关注点可以折射出整体用户的兴趣偏向和关注点,对于广告投放,物品推荐是有助的.
  • 对于目前日益增长的社交网络用户,从大量的社交网络用户中抽取一个具有代表性的子集才是Human-readable的,有益于数据分析,相当于一个数据摘要.

1.2 从科研方法的角度

  • 从大量模型或数据点中抽取一个保留了原数据集的特征是机器学习/计算机视觉领域数据分析和推荐系统领域都是一个重要的问题.
  • 机器学习领域,找原型子集来辅助分类算法.

2.怎样定义代表性

Note:和在社交网络中寻找影响力最大化的问题不同,找出具有代表性的用户的目的是抽取一些”平均”的用户,他们能够在统计上代表原来所有用户的特征.

2.1 代表性用户具备的条件:

版本一.

  • 1.从属性特征角度上,他们很好的代表了原数据集用户的属性特征(行为习惯/性格特征/领域情况等等),即,与原数据集用户具有较少的特征损耗
  • 2.从分布特征角度,代表性子集应尽可能拟合原数据集的样本分布,即,与原数据集具有较少的分布损耗(类似于原数据集中每个领域的人物分布,代表性子集能够拟合原数据集每个领域的人物分布)
  • 3.从差异性角度上,代表性子集需要能够作为每个领域的典型人物,所以代表性子集内部各领域之间的人物需要保持一定的差异性,即,代表性子集内部需要较大的差异性或较小的相似性

版本二.

  • 1.从特征角度上,他们很好的代表了原数据集用户的属性特征(行为习惯/性格特征/领域情况等等),即,与原数据集用户具有较少的特征损耗
  • 2.从分布角度,代表性子集在满足(1)条件下应尽可能的分散或稀疏,使得子集可以尽可能地还原原数据集的分布,即,P具有具有稀疏性;
    -note:如果仅仅要求特征损耗最小,可能会导致代表性子集都聚集在人数较多较相似的团体中,以致于原数据集的分布丢失.

目前倾向于版本一.

2.2 问题定义:

在原数据集人物集合中寻找这样的代表性子集P

  • a)P能够满足以上代表性的定义
  • b)P是数量最小的那个代表性集合

2.3 Novel之处或者contibution:

  • 1.代表性人物包含了两种情况的综合考虑,之前论文中大多考虑单一方面
  • 2.代表性人物的大小不需要先验设定.

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性.
以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

3.如何具体评价子集的代表性

4.方法

分享