尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。个性化Web信... 展开 随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集’Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。 围绕个性化Web信息采集系统PSearch,论文的主要工作包括以下几个方面: (1)用户兴趣个性化信息的获取。分析了用户兴趣个性化信息的收集和更新,重点从用户需求扩展、特征选择,以及文本聚类分析三个方面来做了分析和实验。 当捕获用户当前的浏览行为时,根据用户当前浏览内容的计算结果,选择那些跟用户需求关键词相似度最大的词扩展进来,从而保证了扩展词的质量。实验结果表明,通过这样的需求扩展确实获得了用户的当前个性化兴趣。 隐式收集用户兴趣在本质上与文本分类中的特征选择问题相似。隐式收集用户兴趣可以借鉴文本特征选择方法来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,信息增益方法效果较佳。 如果能够对用户浏览的页面聚类,就能够得到用户具体感兴趣的主题。隐式收集用户兴趣可以借鉴文本聚类分析来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,Bisecting K-means是一个合适的选择。 (2)待采页面的选择。根据页面在Web上的分布特征,分析了个性化Web信息采集系统PSearch的种子URL设置、页面采集过程、已采页面与用户兴趣的相关度判定和待采URL与用户兴趣的相关度预测,提出了PSearch页面选择算法。实验结果表明PSearch页面选择算法的采集准确性要明显优于广度优先算法。 (3)相关度的判定。借鉴了信息检索中的分类过程,实验结果表明,在PSearch的相关度判定中kNN的性能较佳。提出了PSearch页面推荐算法。较之Google返回的检索结果,PSearch推荐给用户的页面和用户的当前兴趣更相关,实现了为用户提供个性化服务的目的。 (4)个性化Web信息采集的性能优化。分别从优雅采集、页面采集、页面刷新、分布式采集等几方面详细分析了PSearch的性能优化。在页面采集中分析了多线程、DNS缓存、持续连接、重复网页、采集器陷阱和网页的存储。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。