嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 2 元微信扫码支付:2 元
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
#####使用python开发定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把URL长相符合特定pattern的网页保存到磁盘上。 程序运行: python mini_spider.py -c spider.conf #####配置文件spider.conf: ...
.
├── mini_spider-master
│ ├── README.md
│ └── mini_spider
│ ├── __init__.py
│ ├── __main__.py
│ ├── engine
│ │ ├── SpiderEngine.py
│ │ ├── UrlParse.py
│ │ ├── __init__.py
│ │ └── spider_thread.py
│ ├── log.py
│ ├── spider.py
│ ├── spider_conf
│ ├── test
│ │ ├── UrlParse_test.py
│ │ ├── __init__.py
│ │ ├── spider_conf
│ │ ├── spiderengine_test.py
│ │ └── urls
│ └── urls
└── mini_spider在调研过程中,经常需要对一些网站进行定向抓取。由于python包含各种强大的库,使用python做定向抓取比较简单。请使用python开发一个迷你定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把URL长相符合特定pattern的网页保存到磁盘上-源码_mini_spider-master.zip
4 directories, 17 files