基本信息
源码名称:python租房爬虫实战
源码大小:3.41KB
文件格式:.py
开发语言:Python
更新时间:2020-05-11
友情提示:(无需注册或充值,赞助后即可获取资源下载链接)
嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 2 元×
微信扫码支付:2 元
×
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
源码介绍
租房爬虫实战
html = requests.get(url '/pg%s' % str(page), headers=headers).text
table = BeautifulSoup(html, 'lxml').find('div', {'class': 'con-box'}).find_all('li', {'data-el': 'zufang'})
table_2 = BeautifulSoup(html, 'lxml')
pattern = re.compile('"totalPage":(.*?),".*?')
last_page = re.findall(pattern, str(table_2))
pattern_mianji = re.compile("(.*?)平米.*?")
pattern_updatetime = re.compile("(.*?)\s更新")
pattern_quyu = re.compile("(.*?)租房")
result = []
for li in table:
item = dict()
item[u'网站'] = li.find('a').get('href')
item[u'房屋描述'] = li.find('img').get('alt')
item[u'小区'] = li.find('div', {'class': 'where'}).find('a').get_text().replace('\xa0', '')
item[u'房型'] = li.find('div', {'class': 'where'}).find_all('span')[1].get_text().replace('\xa0', '')
item[u'面积'] = re.findall(pattern_mianji, li.find('div', {'class': 'where'}).find_all('span')[3].get_text())[0]
item[u'朝向'] = li.find('div', {'class': 'where'}).find_all('span')[4].get_text()
item[u'地区'] = re.findall(pattern_quyu, li.find('div', {'class': 'other'}).find('a').get_text())[0]
item[u'楼层'] = li.find('div', {'class': 'con'}).get_text().split('/')[1]
item[u'年限'] = li.find('div', {'class': 'con'}).get_text().split('/')[2]
item[u'价格'] = li.find('div', {'class': 'price'}).find('span', {'class': 'num'}).get_text()
item[u'更新时间'] = re.findall(pattern_updatetime, li.find('div', {'class': 'price-pre'}).get_text())[0]
item[u'看房人数'] = li.find('div', {'class': 'square'}).find('span', {'class': 'num'}).get_text()
result.append(item)
return result, last_page
租房爬虫实战
def get_url(url, page):
html = requests.get(url '/pg%s' % str(page), headers=headers).text
table = BeautifulSoup(html, 'lxml').find('div', {'class': 'con-box'}).find_all('li', {'data-el': 'zufang'})
table_2 = BeautifulSoup(html, 'lxml')
pattern = re.compile('"totalPage":(.*?),".*?')
last_page = re.findall(pattern, str(table_2))
pattern_mianji = re.compile("(.*?)平米.*?")
pattern_updatetime = re.compile("(.*?)\s更新")
pattern_quyu = re.compile("(.*?)租房")
result = []
for li in table:
item = dict()
item[u'网站'] = li.find('a').get('href')
item[u'房屋描述'] = li.find('img').get('alt')
item[u'小区'] = li.find('div', {'class': 'where'}).find('a').get_text().replace('\xa0', '')
item[u'房型'] = li.find('div', {'class': 'where'}).find_all('span')[1].get_text().replace('\xa0', '')
item[u'面积'] = re.findall(pattern_mianji, li.find('div', {'class': 'where'}).find_all('span')[3].get_text())[0]
item[u'朝向'] = li.find('div', {'class': 'where'}).find_all('span')[4].get_text()
item[u'地区'] = re.findall(pattern_quyu, li.find('div', {'class': 'other'}).find('a').get_text())[0]
item[u'楼层'] = li.find('div', {'class': 'con'}).get_text().split('/')[1]
item[u'年限'] = li.find('div', {'class': 'con'}).get_text().split('/')[2]
item[u'价格'] = li.find('div', {'class': 'price'}).find('span', {'class': 'num'}).get_text()
item[u'更新时间'] = re.findall(pattern_updatetime, li.find('div', {'class': 'price-pre'}).get_text())[0]
item[u'看房人数'] = li.find('div', {'class': 'square'}).find('span', {'class': 'num'}).get_text()
result.append(item)
return result, last_page