基本信息
源码名称:用python爬取国家统计局官方全国行政区划数据库
源码大小:4.23KB
文件格式:.py
开发语言:Python
更新时间:2021-06-17
   友情提示:(无需注册或充值,赞助后即可获取资源下载链接)

     嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300

本次赞助数额为: 2 元 
   源码介绍

     用python爬取国家统计局官方全国行政区划数据库

    

   
def getChun(x,shengid,shiid):
    try:
        response=requests.get("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/" shengid "/" shiid "/" x,headers=headers)
        response.encoding='ANSI'
        html=etree.HTML(response.text)        
        html_data=html.xpath('//table[@class="villagetable"]/tr[@class="villagetr"]')
        chun=[]
        for i in html_data:    
            chun.append([i.xpath('./td[1]/text()'),i.xpath('./td[2]/text()'),i.xpath('./td[3]/text()')])
        return(chun)
    except Exception as e:
        print(str(e))
        getChun(x,shengid,shiid)
#sheng=GetSheng()
file=open("diqu.txt","a ",encoding='ANSI')
#sheng=[['吉林省','22.html'],['黑龙江省','23.html']]
#sheng=[['山东省','37.html'],['河南省','41.html']]
#sheng=[['湖北省','42.html'],['湖南省','43.html'],['广东省','44.html'],['广西壮族自治区','45.html'],['海南省','46.html'],['重庆市','50.html'],['四川省','51.html'],['贵州省','52.html']]
sheng=[['云南省','53.html'],['西藏自治区','54.html'],['陕西省','61.html'],['甘肃省','62.html'],['青海省','63.html'],['宁夏回族自治区','64.html'],['新疆维吾尔自治区','65.html']]
try:
    for i in sheng:
        _shi =GetShi(i[1])
        for m in _shi:
            _xian=GetXian(m[2][0])
            for n in _xian:
                if (len(n) <3 or len(n[2]) == 0):
                    pass
                else:
                    _zhen=GetZhen(n[2][0],str(i[1])[0:2])
                    for z in _zhen:
                        _chun=getChun(z[2][0],str(i[1])[0:2],str.strip(str(m[0]))[4:6])
                        if _chun != None:
                            for t in _chun:     
                                aa=str(i[1])[0:2] "^" str(i[0]) "^" str(m[0][0]) "^" str(m[1][0]) "^" str(n[0][0]) "^" str(n[1][0]) "^" str(z[0][0]) "^" str(z[1][0]) "^" str(t[0][0]) "^" t[2][0] "^" str(t[1][0])
                                print(aa)
                                aa ='\x0A'
                                file.write(aa)
finally:
    file.close()


              



'''
print(GetSheng())
print(GetShi('51'))
'''
#print(GetXian('51/5113.html'))