python租房爬虫实战 - A8源码实例

基本信息

源码名称：python租房爬虫实战

源码大小：3.41KB

文件格式：.py

开发语言：Python

更新时间：2020-05-11

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559

本次赞助数额为： 2 元　

源码介绍

租房爬虫实战

def get_url(url, page):
html = requests.get(url '/pg%s' % str(page), headers=headers).text
table = BeautifulSoup(html, 'lxml').find('div', {'class': 'con-box'}).find_all('li', {'data-el': 'zufang'})
table_2 = BeautifulSoup(html, 'lxml')
pattern = re.compile('"totalPage":(.*?),".*?')
last_page = re.findall(pattern, str(table_2))
pattern_mianji = re.compile("(.*?)平米.*?")
pattern_updatetime = re.compile("(.*?)\s更新")
pattern_quyu = re.compile("(.*?)租房")
result = []
for li in table:
item = dict()
item[u'网站'] = li.find('a').get('href')
item[u'房屋描述'] = li.find('img').get('alt')
item[u'小区'] = li.find('div', {'class': 'where'}).find('a').get_text().replace('\xa0', '')
item[u'房型'] = li.find('div', {'class': 'where'}).find_all('span')[1].get_text().replace('\xa0', '')
item[u'面积'] = re.findall(pattern_mianji, li.find('div', {'class': 'where'}).find_all('span')[3].get_text())[0]
item[u'朝向'] = li.find('div', {'class': 'where'}).find_all('span')[4].get_text()
item[u'地区'] = re.findall(pattern_quyu, li.find('div', {'class': 'other'}).find('a').get_text())[0]
item[u'楼层'] = li.find('div', {'class': 'con'}).get_text().split('/')[1]
item[u'年限'] = li.find('div', {'class': 'con'}).get_text().split('/')[2]
item[u'价格'] = li.find('div', {'class': 'price'}).find('span', {'class': 'num'}).get_text()
item[u'更新时间'] = re.findall(pattern_updatetime, li.find('div', {'class': 'price-pre'}).get_text())[0]
item[u'看房人数'] = li.find('div', {'class': 'square'}).find('span', {'class': 'num'}).get_text()
result.append(item)
return result, last_page