融合微博多维特征和用户动态兴趣的主题推荐研究

所属栏目:计算机信息管理论文范文发布时间:2026-03-13浏览量:528

  摘要:【目的】为解决微博主题推荐中存在的单一性和缺乏新颖性的问题,提出一种更加全面的主题推荐模型,以满足用户个性化需求。【方法】首先利用LDA模型挖掘用户历史微博主题,构建微博-主题矩阵和用户主题矩阵;其次从微博的互动、属性和频次维度综合衡量,形成用户对微博主题的多维度评价,同时模拟用户兴趣的遗忘和衰减过程,构建用户动态兴趣模型,并得到用户的邻居集;最后通过混合推荐,形成用户对主题的最终评价,为用户进行主题推荐。【结果】通过真实数据集进行消融实验,本文提出的主题推荐模型在F1值、覆盖率、新颖度方面的综合评价均高于单一模型。【局限】仅从微博文本内容进行主题挖掘,未结合用户评论等信息。【结论】本文模型在保证准确率的同时,可以为用户提供更多样、新颖的微博推荐内容。

  关键词:微博主题 主题推荐 用户动态兴趣 时间衰减函数 多维特征

  论文《融合微博多维特征和用户动态兴趣的主题推荐研究》发表在《数据分析与知识发现》,版权归《数据分析与知识发现》所有。本文来自网络平台,仅供参考。

  1 引 言

  随着互联网和智能终端的发展与普及,社交网络平台已成为人们日常分享信息的主要场所。新浪微博作为社交平台代表,拥有庞大的用户群体和丰富的内容资源。然而,随着用户数量不断增加,网络信息呈现爆炸式增长,微博平台上的内容呈现出多样化和碎片化的趋势,微博用户也更容易面临信息过载的问题。

  为缓解信息过载问题,个性化推荐应运而生。主题推荐是建立在个性化推荐基础上的一种推荐策略,通过分析用户的兴趣爱好以及内容的主题相关性,向用户推荐符合其兴趣爱好的特定主题相关的内容,提高用户满意度,帮助平台提升用户留存率和收益。在微博个性化推荐方法上,学者主要通过微博文本内容、用户标签、社交关系等信息挖掘用户兴趣偏好,结合协同过滤、深度学习等方法为用户推荐兴趣偏好相关性最大的微博集合 [1]。为进一步提升推荐的准确性,国内外学者在推荐模型中融合考虑多种因素,如用户间的信任关系 [2]、主题相关性 [3]、影响力传播 [4]等。然而,这些研究都存在一定的不足,例如不能有效应对用户兴趣发生变化等。而且,相关研究一般着重于提升推荐的准确性,却容易忽略用户需求的多样性 [5],从而导致“过滤气泡”、“信息茧房”等问题 [6],无法达到用户满意的推荐效果。

  综上,为实现更好的推荐效果,本文从互动、属性和频次三个维度出发,构建微博多维特征模型,衡量微博重要度、可信度和新颖度,同时考虑时间因素对用户兴趣变化的影响完成微博主题推荐。本文旨在从微博的用户和内容出发,为网络用户提供更具新颖性和多样性的主题推荐服务,优化用户使用体验和提升用户满意度。

  2 相关研究

  自推荐系统提出至今,学术界和产业界对个性化推荐进行了广泛研究。其中,协同过滤、内容过滤和混合推荐 [7-9]是最常用的推荐算法。技术的发展使个性化推荐的准确性不断提升,但是过高的准确性容易导致单一重复内容的推荐,因此,仅仅关注推荐准确性可能会影响用户的使用体验,推荐系统领域开始越来越多地关注推荐结果的多样性和新颖性问题 [5,10]。作为个性化推荐的延伸,主题推荐根据用户的历史浏览、发布、搜索行为,结合主题模型 [11]将相似主题的信息和内容推送给用户,可以兼顾推荐准确性和多样性,帮助用户在浏览和搜索过程中快速找到所需信息。潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)是使用最普遍的主题模型,如李亚梅等 [12]利用LDA 主题模型挖掘科研人员的初始情境化主题偏好;Bao等 [3]综合考虑主题的相关性和用户的偏好,建立一个具有更广泛覆盖面和更高准确性的主题等级推荐模型。

  随着个性化推荐研究的深入,单纯使用某一种推荐模型已不能满足个性化和精准化的需求;同时,用户信息的非结构化导致微博个性化推荐精准度不高,因此从不同维度进行微博特征和用户兴趣挖掘是微博推荐研究的热点。多维度特征可以通过文本分析、用户行为分析、主题建模等方法挖掘用户行为数据、用户社交信息、用户个人资料、微博文本内容等信息。微博和用户的数据被量化,提取出数量特征、属性特征、频次特征等 [13],进一步分析用户的活跃度、可信度等行为特征 [14]。但是已有研究局限于考虑微博数据中的某一个或某几个特征,如文本内容或用户关系,忽略了微博多维度的丰富性,可能导致推荐结果的片面性和不准确性。

  同时,部分研究未充分考虑微博内容和用户兴趣随时间的变化,缺乏对于用户短期和长期兴趣演化的全面理解。用户动态兴趣的研究已在多领域得到应用和实践 [15-17]。当前用户动态兴趣的研究方法有两类:一类认为用户的兴趣是不断变化的,而且没有明确的变化节点 [18],一般采用持续更新的方法,如时间窗口法,通过不断分析和收集用户行为数据,实时更新兴趣模型,反映用户当前的兴趣状态;另一类则认为用户兴趣的变化会发生在明确的节点或时间段内,根据兴趣变化点对用户兴趣进行建模,如遗忘函数法 [19],这类方法需要先确定用户兴趣变化的位置,但能够更加准确地捕捉用户兴趣的变化,为预测和理解用户行为提供更深入的洞察。微博用户的兴趣会随时间发生变化,在推荐中考虑微博多维特征的同时,有必要考虑时间因素对用户兴趣变化的影响,满足用户个性化的需求。

  基于此,本研究将微博多维特征和用户兴趣的动态变化特征相结合,构建一个能够平衡推荐结果准确性、多样性和新颖性的主题推荐模型。该模型从多维度进行微博特征挖掘,综合关注用户兴趣的动态变化,并且在评价中强调多样性和新颖性指标,突破传统微博推荐的局限性,使推荐结果更加准确、多样且具有新意,更全面地满足社交平台用户个性化需求。

  3 融合微博多维特征和用户动态兴趣的主题模型构建

  3.1 研究框架

  本文基于文本挖掘和协同过滤技术,提出融合微博多维特征和用户动态兴趣的主题推荐方法,研究框架如图1所示。

  通过爬虫技术采集微博用户信息及其微博内容,在数据筛选与预处理后得到用户-微博数据集。利用LDA 模型对微博文本进行主题提取,得到微博-主题矩阵和用户-主题矩阵。然后,从微博的互动维度、属性维度、频次维度特征构建微博多维特征模型,进行重要度、可信度和新颖度的计算;同时,根据用户-主题矩阵,结合用户的静态和动态兴趣特征构建用户动态兴趣模型,并根据余弦相似性计算相似用户集。最后,融合两个模型形成混合推荐算法,预测用户对主题的兴趣得分并排序,选取得分最高的N 个主题作为推荐的最终结果。在完成推荐后,基于用户实际感兴趣的主题,从F1 值、覆盖率、新颖度三方面对模型性能进行评估。

  3.2 基于LDA的微博主题挖掘

  在个性化主题推荐中,挖掘用户微博兴趣主题是构建用户兴趣主题模型的前提和基础。常见的文本挖掘主题模型有LDA、BTM(Biterm Topic Model)等[20-21]。其中,BTM 模型需要计算词对之间的相关性,对计算资源要求较高,不适用于大规模文本数据的处理。LDA 模型在处理长文本数据上具有优势,但对短文本的处理能力较差。为适应微博这样的短文本,本文先利用Jieba 分词和停用词表对微博文本进行分词处理,然后结合词频-逆文档频率(Term Frequency Inverse - Document Frequency,TF-IDF)捕捉微博文本中的关键词,保留重要的词汇信息,弥补原生LDA在短文本上的不足。

  3.3 微博多维特征模型

  为全面反映用户对微博主题的评价指标,本文从微博的互动维度特征、属性维度特征和频次维度特征三方面计算微博重要度、可信度和新颖度,构建微博多维特征模型。

  (1)微博重要度

  微博重要度考虑了微博的互动维度特征,可以通过点赞数、转发数和评论数进行衡量。一般而言,点赞、评论和转发量更高的微博代表更可能受其他用户的关注,微博主题的重要度相应也就越高。

  文献[22]提出通过点赞数和评论数计算话题重要度,本文在此基础上进一步结合转发量,分两步计算微博重要度。

  ①通过点赞、评论和转发数量计算每条微博内容的重要度得分,如公式(1)所示。

  $m_0 = aN_{like} + bN_{comment} + cN_{transpond} quad(1)$

  其中,$N_{like}$、$N_{comment}$、$N_{transpond}$分别表示微博点赞数、评论数和转发数,$a$、$b$、$c$ 作为平衡微博点赞数、评论数和转发数的权重系数。

  ②根据LDA 的主题识别结果,计算用户对每个主题的重要度得分。将每个用户的微博按概率最大主题进行分组,每条微博对应一个主题,用户u 对主题t 的重要度得分$m_{ut}$为用户在主题t 下微博的重要度之和占其对所有主题重要度之和的比重。得到用户u对微博主题t的重要度矩阵M,如公式(2)所示。

  $$M = egin{bmatrix} m_{11} & m_{12} & cdots & m_{1j} \ m_{21} & m_{22} & cdots & m_{2j} \ vdots & vdots & ddots & vdots \ m_{i1} & m_{i2} & cdots & m_{ij} end{bmatrix} quad(2)$$

  其中,$m_{ut}(u=1,2,…,i;t=1,2,…,j)$表示用户u对主题t的重要度得分。

  (2)微博可信度

  微博可信度考虑微博的属性维度特征,反映微博内容的真实性和价值性,本文采用文献[23]提出的原创率、可疑率指标,同时引入图文率衡量微博可信度。用户原创微博通常会比转发微博的可信度更高,因为原创微博来源于用户本人,而转发微博经过多次传递,信息的来源相对更模糊,真实性也有所降低。相对于纯文本微博,包含图片或视频的微博可以提供直观的视觉证据,使信息更加全面和具体,因此具有更高的可信度。可信度计算方法如公式(3)所示。

  $c = frac{r_o}{r_a} + frac{r_p}{r_a} - frac{r_s}{r_a} quad(3)$

  其中,$r_o$表示用户某主题下发布的原创微博条数,$r_p$表示用户某主题下包含图片或视频的微博条数,$r_s$表示用户某主题下发布的存疑微博条数,$r_a$表示用户某主题下发布的所有微博条数。$r_o/r_a$表示用户的原创率,$r_p/r_a$表示用户的图文率,$r_s/r_a$表示用户的存疑率。存疑微博为包含异常链接、杂乱表情以及无含义文字的微博[23]。

  根据每个用户按主题进行微博分组的结果,计算用户在每个主题下的原创率和存疑率,得到用户对每个主题的可信度,形成用户u 对微博主题t的可信度矩阵C,如公式(4)所示。

  $$C = egin{bmatrix} c_{11} & c_{12} & cdots & c_{1j} \ c_{21} & c_{22} & cdots & c_{2j} \ vdots & vdots & ddots & vdots \ c_{i1} & c_{i2} & cdots & c_{ij} end{bmatrix} quad(4)$$

  其中,$c_{ut}(u=1,2,…,i;t=1,2,…,j)$表示用户u对主题t的可信度得分。

  (3)微博新颖度

  微博新颖度考虑了微博的频率维度特征,衡量主题在一段时间内出现的次数,表示主题被用户关注的可能性。如果用户在一段时间内频繁关注某一主题,那么这一主题的微博对于该用户而言新颖度会更低。利用微博新颖度可以向目标用户推荐其有潜在兴趣但了解较少的内容[24]。新颖度计算公式使用熵的自信息形式[25],如公式(5)所示。

  $f = -log_2frac{N_t}{N_a} quad(5)$

  其中,$N_t$表示用户发布的主题t 的微博数量,$N_a$表示用户发布的所有微博数量。$N_t/N_a$表示用户在一段时间内参与主题t 的频率,频率越高,则用户对该主题的新颖度越低。

  为使新颖度与重要度、可信度一样落在0~1 的范围内,对其进行归一化处理,如公式(6)所示。

  $f_{norm} = frac{f - f_{min}}{f_{max} - f_{min}} quad(6)$

  其中,$f_{norm}$表示归一化之后的新颖度,$f$ 表示原始的新颖度,$f_{min}$、$f_{max}$ 分别表示新颖度的最小值和最大值。

  最后,根据归一化之后的新颖度,形成用户u 对微博主题t的新颖度矩阵F,如公式(7)所示。

  $$F = egin{bmatrix} f_{11} & f_{12} & cdots & f_{1j} \ f_{21} & f_{22} & cdots & f_{2j} \ vdots & vdots & ddots & vdots \ f_{i1} & f_{i2} & cdots & f_{ij} end{bmatrix} quad(7)$$

  其中,$f_{ut}(u=1,2,…,i;t=1,2,…,j)$表示用户u 对主题t的新颖度得分。

  3.4 用户动态兴趣模型

  本文的用户动态兴趣模型通过结合分析用户微博发布的数量特征和时间特征,参考文献[26]的方法分别计算用户的兴趣深浅度指数和稳定度指数,进而通过加权求和得到用户的动态主题兴趣权重。

  (1)兴趣深浅度

  用户兴趣深浅度反映用户对某个微博主题的静态兴趣大小。根据LDA 主题模型训练得到每条微博的主题对应概率结果,概率越高表示该条微博与该主题相关性越高。通过计算用户对主题的对应概率之和得到用户对每个主题的兴趣强度。同时,用户的兴趣也与用户参与的微博主题总量有关,对于用户所参与的每个微博主题,深浅度计算如公式(8)所示。

  $D (u,t_k ) = frac{sum_{k=1}^{N_t} P_{tk}}{N_a} quad(8)$

  其中,$D (u,t_k )$表示用户u 对于主题$t_k$的兴趣深浅度,$P_{tk}$ 表示微博k 对主题t 的对应概率,$N_t$表示用户u 在研究时间范围内发布的某主题的微博数量,$N_a$表示用户u 在研究时间范围内发布的微博总量。用户所发布的内容和主题t的对应概率越大,其对该主题的兴趣深浅度就越大,代表用户对该主题具有更深的兴趣。

  (2)兴趣稳定度

  在实际推荐场景中,用户的兴趣偏好往往会随时间发生变化。艾宾浩斯遗忘曲线表明,人的遗忘速度通常是由快到慢的,而人的兴趣偏好变化过程与遗忘过程较为相似[27]。因此,本文采用指数型衰减函数根据时间推移模拟用户兴趣变化,并利用用户兴趣稳定度表示时间因素对用户兴趣的动态影响。

  用户的主题兴趣随时间发生的强化和衰减过程如图2 所示,在一段时间内(如T0到T1),用户对某主题的兴趣S0会随时间的流逝由快而慢地降低,形成指数型衰减;如果一段时间后用户再次参与该主题微博的发布,此行为可以看作用户对该主题兴趣的强化过程,在上一段时间结束后的兴趣余量基础上形成一次兴趣增量△S1。经过多段时间的兴趣强化和衰减,可以模拟出用户兴趣的动态过程。

  根据用户兴趣的多阶段衰减和强化过程,参考类似的遗忘曲线计算公式 [26],通过计算兴趣的衰减量和增量,得到用户的兴趣稳定度。具体过程分为以下三步:

  ①计算时间点上的兴趣起始量或增量

  对于某段时间(本文设为一个月)的主题兴趣,根据用户 u 参与主题 t 的频次在一定时间内用户参与的所有主题频次的比重,计算用户 u 在某一时间点 $T_{n}$ 上对主题 t 的兴趣得分 $S_{t}^{T_{n}}$,如公式(9)所示,该得分可以看作此时间点上的兴趣起始量或增量。

  $S_{t}^{T_{n}}=frac{N_{t}^{T_{n}}}{N_{a}^{T_{n}}} quad(9)$

  其中,$N_{t}^{T_{n}}$ 表示在 $T_{n}$ 前一个月内主题 t 出现的次数,$N_{a}^{T_{n}}$ 表示在 $T_{n}$ 前一个月内用户发布的微博数量。在一段时间内,用户参与主题t 的频次越高,代表其对主题t的兴趣量越大,对主题t的兴趣得分 $S_{t}^{T_{n}}$ 也就越高。

  ②计算兴趣衰减量

  根据遗忘衰减规律,若用户 u 在一段时间内没有参与主题t微博的发布和转发,那么用户u 对于主题t的兴趣稳定度 S 将由快到慢递减,本文采用指数形式的遗忘函数进行计算,计算方法如公式(10)所示。

  $S_{t}^{T_{m}}=S_{t}^{T_{m-1}} e^{-frac{ln 2}{hl}(T_{m}-T_{m-1})} quad(10)$

  其中,$S_{t}^{T_{m}}$ 为主题在 $T_{m-1} ~ T_{m}$ 时间段衰减后的权重;$S_{t}^{T_{m-1}}$ 为主题在 $T_{m-1}$ 时间点的权重(即该遗忘阶段的初始值),$T_{m}-T_{m-1}$ 表示当前时间点与上次参与主题 t 的时间间隔,单位为天;$hl$ 表示主题兴趣衰减的半衰期,可以调节用户的兴趣衰减速率。$hl$ 越大,衰减速率越慢;$hl$ 越小,衰减速率越快。

  ③计算兴趣增量

  若用户在一段时间后再次发布主题 t 相关的微博,将会形成兴趣强化,经过强化后的主题 t 兴趣稳定度为上一阶段主题 t 兴趣稳定度衰减后的余量与再次参加该主题的兴趣增量之和,如公式(11)所示。

  $S_{t}^{T_{m}'}=S_{t}^{T_{m}}+S_{t}^{T_{m}} e^{-frac{ln 2}{hl}(T_{m}-T_{m-1})} quad(11)$

  其中,$S_{t}^{T_{m}'}$ 为主题 t 在 $T_{m}$ 时间点的兴趣度;$S_{t}^{T_{m}}$ 为用户在 $T_{m}$ 时间点对主题t 的兴趣度,也作为 $T_{m}$ 时间点用户对主题兴趣的增量,计算方法如公式(9)所示;$S_{t}^{T_{m-1}} e^{-frac{ln 2}{hl}(T_{m}-T_{m-1})}$ 为主题t的兴趣稳定度衰减到时间点 $T_{m}$ 的残值。

  (3)基于动态兴趣的用户相似度计算

  得到用户在目标时间点对主题的兴趣深浅度和稳定度后,求和得到目标时间点每个用户对各个主题的动态兴趣得分,如公式(12)所示。

  $Wleft(u, t_{k} ight)=alpha Dleft(u, t_{k} ight)+(1-alpha) S^{T'}left(u, t_{k} ight) quad(12)$

  其中,$W(u, t_{k})$ 、$D(u, t_{k})$ 、$S^{T'}(u, t_{k})$ 分别表示用户对主题 $t_{k}$ 的动态兴趣得分、深浅度和稳定度;$T'$ 表示计算用户动态兴趣目标时间点;$alpha$ 为调和参数,用于调整 $D(u, t_{k})$ 和 $S^{T'}(u, t_{k})$ 的比例。用户 u 对主题 t 的动态兴趣得分矩阵 W,如公式(13)所示。

  $$W=egin{bmatrix}w_{11} & w_{12} & cdots & w_{1 j} \ w_{21} & w_{22} & cdots & w_{2 j} \ vdots & vdots & ddots & vdots \ w_{i 1} & w_{i 2} & cdots & w_{i j}end{bmatrix} quad(13)$$

  其中,$w_{ut}(u=1,2, cdots, i ; t=1,2, cdots, j)$表示用户u 对主题t的动态兴趣得分。

  根据动态兴趣得分矩阵 W 可以计算用户间的相似度。为减少用户对主题兴趣权重的差异,采用修正余弦相似性算法计算用户之间的相似度得分,如公式(14)所示。

  $s_{uv}=frac{sumleft(w_{ut}-overline{w}_{u} ight)left(w_{vt}-overline{w}_{v} ight)}{sqrt{sumleft(w_{ut}-overline{w}_{u} ight)^{2}} sqrt{sumleft(w_{vt}-overline{w}_{v} ight)^{2}}} quad(14)$$

  其中,$s_{uv}$表示用户u 和用户v 的动态兴趣相似度,$w_{ut}$ 和 $w_{vt}$ 分别表示用户 u 和用户 v 对主题 t 的动态兴趣得分,$ar{w}_{u}$ 和 $ar{w}_{v}$ 分别表示用户 u 和用户 v 对所有主题的平均动态兴趣。根据用户 u 与其他用户间的相似度得分结果进行排序,选取相似度最高的前 k 个用户记为用户u 的邻居 V,即用户基于动态兴趣的相似用户集合。

  3.5 融合微博多维特征和用户动态兴趣的主题推荐

  采用协同过滤方法,基于用户 u 的相似邻居 V 的动态兴趣得分和相似度,对用户 u 对各个主题的兴趣进行预测,结合用户微博的多维特征得分,得到用户对所有主题的最终预测得分,如公式(15)所示。

  $E_{ut}=m_{ut}+c_{ut}+f_{ut}+frac{sum_{v in V}left(w_{vt}-overline{w}_{v} ight) s_{uv}}{sum_{v in V} s_{uv}} quad(15)$$

  其中,$E_{ut}$ 为用户 u 对主题t的最终预测得分,$m_{ut}$、$c_{ut}$、$f_{ut}$ 分别表示重要度、可信度和新颖度得分,V 为用户 u 基于动态兴趣的相似用户集合,$w_{vt}$ 表示用户 v 对主题t的动态兴趣得分,$ar{w}_{v}$ 表示用户 v 对所有主题的平均动态兴趣得分,$s_{uv}$ 表示用户 u 和用户 v 之间的相似度。

  最后,按照用户u 对所有主题的最终预测得分从高到低进行排序,选取得分最高的前 N 个主题为目标用户进行推荐。

  4 实验结果及分析

  4.1 实验数据

  (1)数据来源

  本文实验数据来源于新浪微博,利用Python 调取官方API接口获取用户信息和微博数据。为保证用户兴趣主题的全面性,分别在新浪主页的54 个热门版块下选取前5位用户信息,去重后共得到268位用户信息,以及这些用户2022年10月1日至2023年 3 月31 日所发布的微博信息。其中,用户信息包括用户ID、关注数、粉丝数、微博数、认证信息、账号等级等;微博信息包括微博ID、正文、点赞数、评论数、转发数、话题、发布日期、源微博正文等。然后,对用户及其微博信息进行筛选,去除不活跃用户(多月发布微博数为0 的用户)后得到167 个微博用户,共计 144 892条微博数据。

  (2)数据处理

  进一步处理采集到的用户和微博文本数据:

  ①筛选过滤非用户生成的无意义关键词及微博,如“网页链接”、 “抱歉,此微博已被作者删除”等。合并用户微博的正文和源微博正文文字内容。

  ②结合关键词过滤和人工审核方法,筛选存疑微博并进行标注,如包含异常链接、杂乱表情以及无意义文字的微博,共标注存疑微博679条。

  ③对筛选过的微博文字进行分词处理,结合哈尔滨工业大学停用词表、人工整理的常见却无实际意义的词语,利用Jieba进行分词和去停用词。

  经过预处理后,共得到166个有效用户和73 598 条有效微博。由于本文数据具有时间上的连续性,根据时间序列划分训练集和测试集,选取2022 年10 月至2023 年2 月的数据共59 676 条作为训练集,2023年3月数据共13 922条作为测试集。

  (3)用户兴趣主题建模

  本文结合TF-IDF 和LDA 模型对用户进行兴趣主题建模。使用TF-IDF 筛选出区分度较高的5 000 个特征词语,然后将每条微博文本特征词作为一个输入文档进行LDA主题建模,通过计算主题困惑度,选择这批用户的最佳主题数目。困惑度计算结果如图3所示。当主题数为26时,困惑度最低,此时的主题模型效果较为可靠 [28],故确定本文的主题数为26。

  LDA 模型的相关参数 α 和 β 按照经验值设置为 0.1 和0.01。根据建模结果,选取每个主题中词汇概率较高的特征词,得到各主题的特征词分布。

  参考文献[29],将公式(1)中的微博点赞数 $N_{like}$、评论数$N_{comment}$和转发数 $N_{transpond}$ 的权重系数 $a$、$b$、$c$ 分别设为0.235 9、 0.501 7、 0.261 4,评论数在重要度计算中占比最高,其次为转发数,最后是点赞数。在计算标签的遗忘衰减时,根据用户兴趣遗忘规律,设定半衰期为10天是一个相对合理的周期长度,用户对某主题的兴趣在10 天后会衰减到原来的 1/e。

  4.2 评价指标

  本文选取F1值、覆盖率、新颖度三个指标对模型推荐效果进行综合评价,计算方法如公式(16)、(17)、(18)所示。

  $$F1 =2 × frac{ Precision × Recall }{ Precision + Recall } =2 × frac{frac{|X_{rs}|}{|X_{s}|} × frac{|X_{rs}|}{|X_{u}|}}{frac{|X_{rs}|}{|X_{s}|}+frac{|X_{rs}|}{|X_{u}|}}=frac{2|X_{rs}|}{|X_{u}|+|X_{s}|} quad(16)$$

  $$Coverage =frac{|X_{s}|}{|X_{t}|} quad(17)$$

  $$Novelty =frac{1}{U} sum_{u=1}^{U} sum_{t in X_{rs}} popularity (t) quad(18)$$

  其中,$X_{rs}$为推荐的主题集合与用户实际感兴趣主题集合的交集;$X_{s}$为推荐的主题集合;$X_{u}$为用户实际感兴趣的主题集合;$X_{t}$为所有主题的集合;$U$为用户总数;$popularity(t)$为主题t的流行度,流行度越低则新颖度越高。

  4.3 消融实验设计

  为验证本文融合微博多维特征和用户动态兴趣的主题推荐模型(DNR)的有效性,设计消融实验,将DNR模型与4种单一模型进行对比,各模型简写及描述如下表所示:

  | 序号 | 模型简写 | 模型描述 |

  | 1 | DNR | 融合微博多维特征和用户动态兴趣的主题推荐模型 |

  | 2 | SNR | 融合微博多维特征和用户静态兴趣的主题推荐模型 |

  | 3 | SR | 基于用户静态兴趣的主题推荐模型 |

  | 4 | DR | 基于用户动态兴趣的主题推荐模型 |

  | 5 | NR | 基于微博多维特征的主题推荐模型 |

  融合微博多维特征和用户静态兴趣的主题推荐模型(SNR)是为了验证用户静态兴趣对本研究融合模型推荐性能的影响,不考虑时间因素,将静态兴趣与微博多维特征相融合,可以与DNR 模型进行比较得到考虑时间因素对推荐效果的影响。基于用户静态兴趣(SR)和基于用户动态兴趣(DR)的模型忽略微博多维特征,仅使用用户静态兴趣信息和动态兴趣信息进行主题推荐。基于微博多维特征的模型(NR)仅考虑微博多维特征而忽略用户兴趣。通过对比本文DNR 模型与其余单一模型的表现,可以验证推荐模型中融合微博多维特征和用户动态兴趣是否能提升推荐效果。消融实验评估结果如图4所示。

  4.4 实验结果分析

  随着待推荐主题数的增多,5 种模型都存在F1 值先上升后下降的现象。其中,基于用户动态和静态兴趣角度的DR、SR 模型虽然开始具有较高的F1 值,但随着推荐数超过10 后开始下降;而考虑了微博多维特征的模型的F1 值在推荐数小于20 时均呈现平稳上升的趋势。

  DR 模型和SR 模型在推荐主题数大于9 后覆盖率几乎不再变化,而考虑微博多维特征的模型整体表现均优于仅基于用户兴趣的模型,表明微博多维特征模型在提升推荐的多样性方面发挥了很大作用。

  在新颖度评价指标下,基于用户动态兴趣的DR 模型展现出较大优势,具有更高的新颖性特征;其次是融合微博多维特征和用户动态兴趣的DNR 模型;基于用户静态兴趣的SR模型新颖度最低,说明基于用户动态兴趣的推荐模型能够引导用户发现新颖的内容。

  根据对比结果可以发现,本文提出的融合微博多维特征和用户动态兴趣的DNR 主题推荐模型可以很好地综合准确性、多样性、新颖性,在F1 值、覆盖率、新颖度方面均得到较高的评价:在F1 值方面仅次于NR 模型,在覆盖率方面仅次于SNR 模型,在新颖度方面仅次于DR 模型。综上,本文模型在推荐准确性、多样性、新颖性方面都比较优秀,值得进一步研究和推广。

  5 结 语

  本文从用户角度出发,结合微博重要度、可信度和新颖度等多维度特征,构建兴趣动态衰减模型模拟用户兴趣的动态变化,对挖掘到的微博特征进行量化,经过协同过滤方法得到用户对微博主题的综合评价。实验结果证明,该模型在F1 值、覆盖率和新颖度方面都得到较高评价,在综合准确性、多样性和新颖性的推荐中具备一定优势。本文提出的主题推荐模型可以为用户提供更多样、新颖的推荐内容。

  本文模型尚缺乏一定的泛化能力,确定实验参数的过程尚未实现自动化,并且在处理冷启动用户时可能因训练样本不足而影响性能。因此,未来工作将结合深度学习方法实现自动化调参,并考虑结合用户评论文本进行推荐,以期达到模型整体效率的提升。

  参考文献

  [1] 唐晓波, 房小可. 基于隐含狄利克雷分配的微博推荐模型研究[J]. 情报科学, 2015, 33(2): 3-8.

  [2] 王战平, 夏榕. 基于主题和多重信任关系的微博推荐方法研究[J]. 现代情报, 2021, 41(2): 3-9.

  [3] Bao F G, Xu W Q, Feng Y, et al. A Topic-Rank Recommendation Model Based on Microblog Topic Relevance & User Preference Analysis[J]. Human-centric Computing and Information Sciences, 2022, 12: Article No. 10.

  [4] 叶佳鑫, 熊回香, 易明, 等. 融合影响力传播的社交网络群推荐方法[J]. 情报学报, 2022, 41(4): 364-374.

  [5] 徐元萍, 陈翔. 推荐系统中的新颖性问题研究[J]. 计算机应用研究, 2020, 37(8): 2310-2314.

  [6] 朱红涛, 李姝熹. 信息茧房研究综述[J]. 图书情报工作, 2021,65(18): 141-149.

  [7] 李树青, 黄金旺, 马丹丹, 等. 基于显隐式信息融合和单类协同过滤方法的主题词推荐[J]. 图书情报工作, 2023, 67(3): 72-84.

  [8] 马鑫, 王芳, 段刚龙. 面向电商内容安全风险管控的协同过滤推荐算法研究[J]. 情报理论与实践, 2022, 45(10): 176-187.

  [9] 闫晓慧, 马博闻, 邓三鸿, 等. 融合专利与论文信息的内容挖掘和引用基础的企校创新合作推荐研究[J]. 现代情报, 2023, 43(3): 13-25.

  [10] 安维, 刘启华, 张李义. 个性化推荐系统的多样性研究进展[J].图书情报工作, 2013, 57(20): 127-135.

  [11] 崔金栋, 杜文强, 关杨, 等. 微博用户信息个性化推荐主题模型LDA 演化分析研究[J]. 情报科学, 2017, 35(8): 3-10.

  [12] 李亚梅, 秦春秀, 马续补. 基于科研人员情境化主题偏好的科技文献协同推荐研究[J]. 情报理论与实践, 2021, 44(12): 180-189.

  [13] 孙玉洁, 秦永彬. 基于LDA模型的多角度个性化微博推荐算法[J].计算机工程, 2017, 43(4): 177-182.

  [14] Cheng K F, Shan F C, Song Z W, et al. Weibo User Attribute Analysis Method Based on Multi-Feature[J]. Journal of Physics: Conference Series, 2020, 1544(1): Article No.012176.

  [15] Gan M X, Cui H F. Exploring User Movie Interest Space: A Deep Learning Based Dynamic Recommendation Model[J]. Expert Systems with Applications, 2021, 173: Article No.114695.

  [16] 谢梦瑶, 潘旭伟. 社会化标注中用户动态标签云构建研究[J].数据分析与知识发现, 2017, 1(2): 35-40.

  [17] 顾佳云, 熊回香, 肖兵. 虚拟学术社区中融合用户动态兴趣与社交关系的学者推荐研究[J]. 图书情报工作, 2022, 66(11): 110-120.

  [18] 吴树芳, 高梦蛟, 朱杰. 基于兴趣主题稳定度和多维相似度的社交用户兴趣挖掘[J]. 情报理论与实践, 2022, 45(12): 186-194.

  [19] 蒋武轩, 易明, 汪玲. 融合用户兴趣漂移特征的个性化推荐研究[J]. 情报理论与实践, 2022, 45(1): 38-45.

  [20] Zhu L, Xu H, Xu Y, et al. A Joint Model of Extended LDA and IBTM over Streaming Chinese Short Texts[J]. Intelligent Data Analysis, 2019, 23(3): 681-699.

  [21] Niu W, Tan W, Jia W. CS-BTM: A Semantics-Based Hot Topic Detection Method for Social Network[J]. Applied Intelligence, 2022, 52: 18187-18200.

  [22] 单晓红, 崔凤艳, 刘晓燕. 融合话题多维特征和用户兴趣偏好的微博话题推荐研究[J]. 现代情报, 2022, 42(5): 69-76.

  [23] 吴菲, 王维. 一种基于改进分层置信规则库的社交账户可信度评估方法[J]. 计算机应用研究, 2022, 39(9): 2779-2784.

  [24] Herlocker J L, Konstan J A, Terveen L G, et al. Evaluating Collaborative Filtering Recommender Systems[J]. ACM Transactions on Information Systems, 2004, 22(1): 5-53.

  [25] 余骞, 彭智勇, 洪亮, 等. 基于用户邻域和主题的新颖性Web 社区推荐方法[J]. 软件学报, 2016, 27(5): 1266-1284.

  [26] 李媛媛, 李旭晖. 结合本体与社会化标签的用户动态兴趣建模研究[J]. 情报学报, 2020, 39(4): 436-449.

  [27] Murre J M J, Dros J. Replication and Analysis of Ebbinghaus’ Forgetting Curve[J]. PLoS One, 2015, 10(7): Article No. e0120644.

  [28] 张东鑫, 张敏. 图情领域LDA 主题模型应用研究进展述评[J]. 图书情报知识, 2022, 39(6): 143-157.

  [29] 马倩, 王新, 郑承宇, 等. 基于社区专家用户权威度的微博推荐算法研究[J]. 云南民族大学学报(自然科学版), 2020, 29(6): 628-634.

  [30] 杜巍, 高长元, 翟丽丽. 基于新鲜度度量的多样性推荐模型研究[J]. 情报理论与实践, 2018, 41(8): 127-131.

期刊 论文 出书
国内外/中英文/全学科 学术服务
相关阅读