基本信息
源码名称:python租房爬虫实战
源码大小:3.41KB
文件格式:.py
开发语言:Python
更新时间:2020-05-11
   友情提示:(无需注册或充值,赞助后即可获取资源下载链接)

     嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300

本次赞助数额为: 2 元 
   源码介绍
租房爬虫实战

def get_url(url, page):
    html = requests.get(url '/pg%s' % str(page), headers=headers).text
    table = BeautifulSoup(html, 'lxml').find('div', {'class': 'con-box'}).find_all('li', {'data-el': 'zufang'})
    table_2 = BeautifulSoup(html, 'lxml')
    pattern = re.compile('"totalPage":(.*?),".*?')
    last_page = re.findall(pattern, str(table_2))
    pattern_mianji = re.compile("(.*?)平米.*?")
    pattern_updatetime = re.compile("(.*?)\s更新")
    pattern_quyu = re.compile("(.*?)租房")
    result = []
    for li in table:
        item = dict()
        item[u'网站'] = li.find('a').get('href')
        item[u'房屋描述'] = li.find('img').get('alt')
        item[u'小区'] = li.find('div', {'class': 'where'}).find('a').get_text().replace('\xa0', '')
        item[u'房型'] = li.find('div', {'class': 'where'}).find_all('span')[1].get_text().replace('\xa0', '')
        item[u'面积'] = re.findall(pattern_mianji, li.find('div', {'class': 'where'}).find_all('span')[3].get_text())[0]
        item[u'朝向'] = li.find('div', {'class': 'where'}).find_all('span')[4].get_text()
        item[u'地区'] = re.findall(pattern_quyu, li.find('div', {'class': 'other'}).find('a').get_text())[0]
        item[u'楼层'] = li.find('div', {'class': 'con'}).get_text().split('/')[1]
        item[u'年限'] = li.find('div', {'class': 'con'}).get_text().split('/')[2]
        item[u'价格'] = li.find('div', {'class': 'price'}).find('span', {'class': 'num'}).get_text()
        item[u'更新时间'] = re.findall(pattern_updatetime, li.find('div', {'class': 'price-pre'}).get_text())[0]
        item[u'看房人数'] = li.find('div', {'class': 'square'}).find('span', {'class': 'num'}).get_text()
        result.append(item)
    return result, last_page