基本信息
源码名称:python主题爬虫爬取与主题词相关的新浪新闻网页
源码大小:4.43KB
文件格式:.rar
开发语言:Python
更新时间:2021-10-22
友情提示:(无需注册或充值,赞助后即可获取资源下载链接)
嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 1 元×
微信扫码支付:1 元
×
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
源码介绍
•在新闻页面的HTML中进行文本内容的提取,这里是使用了BeautifulSoup和xpath的信息提取方法。在提取出文本之后,进行了文本的切分,获取每个词汇。进行了停用词过滤,最后以词汇出现的次数和词汇在每个段落出现的情况来进行特征选择,最终选择出10个代表该页面内容的词汇。将这些词汇与事先设定的主题词汇基于Jaccard相似系数来计算页面内容与主题的相关度。