基本信息
源码名称:基于python_json的爬取百度文库文字(简单排版)
源码大小:0.82KB
文件格式:.zip
开发语言:Python
更新时间:2021-08-28
友情提示:(无需注册或充值,赞助后即可获取资源下载链接)
嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 2 元×
微信扫码支付:2 元
×
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
源码介绍
利用谷歌浏览器抓包,提取network栏内所有的0.json?开头的url地址(注意点击文档继续浏览,将所有文字拖拽显示完),提取到当前目录下的urls.txt,运行程序提取至当前目录下的text.txt文件内
利用谷歌浏览器抓包,提取network栏内所有的0.json?开头的url地址(注意点击文档继续浏览,将所有文字拖拽显示完),提取到当前目录下的urls.txt,运行程序提取至当前目录下的text.txt文件内
for url in urls: if url[urls_total] =='\n':
url = url[:urls_total]
response = requests.get(url, headers=headers)
html_str = response.content.decode()
figure_int = int(re.findall('wenku_(.*)\(\{', html_str)[0])
html_str = html_str[8:-1]
htmldata = json.loads(html_str)
json_body_list = htmldata['body']
i =[] for contents in json_body_list: if contents['c'][0] == ' ':
i.append('\n' ' ') else:
i.append(contents['c'])
artical[figure_int-1] = i