python爬虫简易框架 - A8源码实例

基本信息

源码名称：python爬虫简易框架

源码大小：5.03KB

文件格式：.rar

开发语言：Python

更新时间：2021-10-22

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559

本次赞助数额为： 1 元　

源码介绍

基于DFS和BFS的Python爬虫简易框架

# 当爬行任务非空，并且爬行的页面没有超过设定值时，一直爬行
while self.UrlSequence.UnvisitedIsEmpty() is False and self.UrlSequence.Visited_Count() <= max_count:
# 对于宽度优先或深度优先，分别使用Dequeue，pop
if flag == 1: # using BFS
visitUrl = self.UrlSequence.Unvisited_Dequeue()
else: # using DFS
visitUrl = self.UrlSequence.Unvisited_Pop()
print ("Pop out one url \"%s\" from unvisited url list" % visitUrl)
if visitUrl in self.UrlSequence.visited or visitUrl is None or visitUrl == "":
continue

# 抓取页面，并提取页面中的超链接到links中
links = self.getLinks(visitUrl)
print ( "Get %d new links" % len(links))

# 保存到已抓取的任务中
self.UrlSequence.Visited_Add(visitUrl)
print ("Visited url count: " str(self.UrlSequence.Visited_Count()))

# 将新提取出的超链接保存到未抓取的任务中
for link in links:
self.UrlSequence.Unvisited_Add(link)
print ("%d unvisited links:" % len(self.UrlSequence.getUnvisitedUrl()))