基本信息
源码名称:基于python_json的爬取百度文库文字(简单排版)
源码大小:0.82KB
文件格式:.zip
开发语言:Python
更新时间:2021-08-28
   友情提示:(无需注册或充值,赞助后即可获取资源下载链接)

     嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300

本次赞助数额为: 2 元 
   源码介绍
利用谷歌浏览器抓包,提取network栏内所有的0.json?开头的url地址(注意点击文档继续浏览,将所有文字拖拽显示完),提取到当前目录下的urls.txt,运行程序提取至当前目录下的text.txt文件内


for url in urls: if url[urls_total] =='\n':
        url = url[:urls_total]
    response = requests.get(url, headers=headers)
    html_str = response.content.decode()
    figure_int = int(re.findall('wenku_(.*)\(\{', html_str)[0])
    html_str = html_str[8:-1]
    htmldata = json.loads(html_str)
    json_body_list = htmldata['body']
    i =[] for contents in json_body_list: if contents['c'][0] == ' ':
         i.append('\n' '    ') else:
         i.append(contents['c'])
    artical[figure_int-1] = i