尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 微博作为新兴的互联网媒体,已经逐渐成为广大用户发表观点、共享信息的平台,其每日发布信息数以百万计、信息量庞大,用户难以浏览所有微博。同时,微博话题传播速度快、传播范围广,社会影响力高,因此从微博数据中获取热点话题并返回重要微博能帮... 展开 微博作为新兴的互联网媒体,已经逐渐成为广大用户发表观点、共享信息的平台,其每日发布信息数以百万计、信息量庞大,用户难以浏览所有微博。同时,微博话题传播速度快、传播范围广,社会影响力高,因此从微博数据中获取热点话题并返回重要微博能帮助用户迅速把握社会关注热点,对于各类微博用户快速了解关键信息具有非常重要的价值。而当前微博平台基于用户关系的构建方式使得微博用户只能接收与其相关的微博内容而不能直接得到整个微博网络中的热点话题信息,所以从微博数据中挖掘热点话题返回给用户,可以获得更好的用户体验。虽然目前微博平台上已经提供了类似于热点话题榜的应用,但是介入了大量人工编辑因素导致热点话题的生成并不客观,并且以话题热度判断以讨论频次作为主要衡量指标,难以反映真实情况。 本文首先研究了话题检测与热度判断的国内外相关技术,之后结合对微博热点话题的分析与总结、对已有微博热点话题相关应用的研究,提出了基于LDA模型的热点话题检测方法。该方法首先从微博内容特征出发,利用N元递增模型抽取重复字串,依据绝对词频、相对词频及互信息、邻接信息熵等统计特征过滤垃圾字串从而进行新词识别提取微博新词,并利用此结果提升分词结果的准确性;之后利用LDA模型挖掘微博数据的主题信息,将主题作为话题从而得到候选话题列表,同时可确定话题、词语、文档之间的关系;最后利用GibbsLDA++工具的结果,将词语与其所属话题看作一个整体即单义词单元,并通过计算单义词单元的权重即热度得到话题热度,对话题按热度排序以得到热点话题。该方法从微博的时间及内容特征出发、较有针对性,排除了人工编辑因素,因此挖掘的话题更为客观,并且通过实验验证了该方法在新词识别及话题检测上的有效性。 为了使用户对热点话题有更全面的了解,本文进而提出了一种基于微博内容与话题相关性及发布者价值的相关微博返回方法,改进了目前微博平台仅以关键词语的匹配作为微博与话题相关性的判断机制,并结合影响微博内容价值的直接因素即微博自身评论数和转发数、间接因素即发布者影响力,对微博价值进行有效评估,从而实现对返回的话题相关微博的排序,使得用户可以以较小的阅读代价迅速了解热点话题相关事件及有代表性的用户讨论内容。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。