python主题爬虫爬取与主题词相关的新浪新闻网页

基本信息

源码名称：python主题爬虫爬取与主题词相关的新浪新闻网页

源码大小：4.43KB

文件格式：.rar

开发语言：Python

更新时间：2021-10-22

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559

本次赞助数额为： 1 元　

源码介绍

•在新闻页面的HTML中进行文本内容的提取，这里是使用了BeautifulSoup和xpath的信息提取方法。在提取出文本之后，进行了文本的切分，获取每个词汇。进行了停用词过滤，最后以词汇出现的次数和词汇在每个段落出现的情况来进行特征选择，最终选择出10个代表该页面内容的词汇。将这些词汇与事先设定的主题词汇基于Jaccard相似系数来计算页面内容与主题的相关度。