爬取两万多租房数据,告诉你广州房租现状("深度解析:爬取2万+广州租房数据,揭秘当前房租市场真相")

原创
ithorizon 6个月前 (10-20) 阅读数 15 #后端开发

深度解析:爬取2万+广州租房数据,揭秘当前房租市场真相

一、引言

近年来,随着城市化进程的加快,广州作为一线城市,其租房市场日益活跃。为了更好地了解广州房租现状,本文通过爬取两万多条广州租房数据,对当前房租市场进行了深度解析。

二、数据爬取

本次数据爬取关键针对广州地区的租房信息,数据来源于某知名房产网站。以下是爬取数据的Python代码示例:

import requests

from bs4 import BeautifulSoup

import pandas as pd

def fetch_rent_data(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, 'html.parser')

return soup

def parse_rent_data(soup):

rent_list = []

for item in soup.find_all('div', class_='content__list--item'):

title = item.find('p', class_='content__list--item--title twoline').text.strip()

price = item.find('span', class_='content__list--item-price').text.strip()

info = item.find('p', class_='content__list--item--des').text.strip()

rent_list.append([title, price, info])

return rent_list

def save_rent_data(rent_list):

df = pd.DataFrame(rent_list, columns=['标题', '价格', '信息'])

df.to_csv('rent_data.csv', index=False, encoding='utf-8_sig')

url = 'https://gz.zu.anjuke.com/fangyuan/p1/'

soup = fetch_rent_data(url)

rent_list = parse_rent_data(soup)

save_rent_data(rent_list)

三、数据清洗与预处理

在获取到原始数据后,需要对数据进行清洗和预处理,以便后续分析。以下是数据清洗的Python代码示例:

import pandas as pd

# 读取数据

df = pd.read_csv('rent_data.csv')

# 数据清洗

df.dropna(inplace=True) # 删除缺失值

df = df[df['价格'].str.contains('元/月')] # 筛选价格信息

# 价格提取

df['价格'] = df['价格'].str.extract(r'(\d+)元/月')

# 数据类型转换

df['价格'] = df['价格'].astype(int)

# 保存清洗后的数据

df.to_csv('clean_rent_data.csv', index=False, encoding='utf-8_sig')

四、数据分析

通过对清洗后的数据进行统计分析,我们可以从以下几个方面了解广州房租现状:

1. 房租分布情况

以下是房租分布情况的统计代码:

df['价格'].value_counts().sort_index().plot(kind='bar')

plt.xlabel('房租(元/月)')

plt.ylabel('租房数量')

plt.title('广州房租分布情况')

plt.show()

2. 房租与面积关系

以下是房租与面积关系的统计代码:

df['面积'] = df['信息'].str.extract(r'(\d+)平')

df['面积'] = df['面积'].astype(float)

df.plot(kind='scatter', x='面积', y='价格', alpha=0.5)

plt.xlabel('面积(平方米)')

plt.ylabel('房租(元/月)')

plt.title('广州房租与面积关系')

plt.show()

3. 房租与区域关系

以下是房租与区域关系的统计代码:

df['区域'] = df['信息'].str.extract(r'(\w+)区')

df['区域'].value_counts().sort_index().plot(kind='bar')

plt.xlabel('区域')

plt.ylabel('租房数量')

plt.title('广州房租与区域关系')

plt.show()

五、结论

通过以上分析,我们可以得出以下结论:

  • 广州房租分布广泛,整体呈现正态分布特征;
  • 房租与面积呈正相关关系,面积越大,房租越高;
  • 不同区域的房租存在一定差异,其中天河区、海珠区和白云区的房租相对较高。

期望本次分析能为租房者提供一定的参考,让大家在广州租房市场找到心仪的房源。


本文由IT视界版权所有,禁止未经同意的情况下转发

文章标签: 后端开发


热门