基于python_json的爬取百度文库文字（简单排版）

基本信息

源码名称：基于python_json的爬取百度文库文字（简单排版）

源码大小：0.82KB

文件格式：.zip

开发语言：Python

更新时间：2021-08-28

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559

本次赞助数额为： 2 元　

源码介绍

利用谷歌浏览器抓包，提取network栏内所有的0.json?开头的url地址（注意点击文档继续浏览，将所有文字拖拽显示完），提取到当前目录下的urls.txt，运行程序提取至当前目录下的text.txt文件内


for url in urls: if url[urls_total] =='\n':
        url = url[:urls_total]
    response = requests.get(url, headers=headers)
    html_str = response.content.decode()
    figure_int = int(re.findall('wenku_(.*)\(\{', html_str)[0])
    html_str = html_str[8:-1]
    htmldata = json.loads(html_str)
    json_body_list = htmldata['body']
    i =[] for contents in json_body_list: if contents['c'][0] == ' ':
         i.append('\n' '    ') else:
         i.append(contents['c'])
    artical[figure_int-1] = i