咨询服务热线:400-123-4567
发布日期:2023-09-28 21:49:13阅读:次
本文是基于Excel进行数据清洗和利用tableau进行深圳二手房市场可视化数据分析。
分析思路:
1.提出问题
2.数据理解
3.数据处理与清洗
4.各区市场整体概览
5.二手房维度分析
6.总结
1.希望了解目前深圳各区二手房的数量、总价和单价情况,以及探索与各区GDP有无关联;
2.希望了解深圳二手房总体价格趋势;
3.希望了解深圳二手房的特点,及探索一些关键指标与价格的关系。
1.数据获取
2020年3月5日,爬虫获取的链家深圳二手房房源信息,总共包括18906条记录,11个字段。
2.字段注解
area :行政区
Title:房源信息标题
Community:小区
Position:地段位置
Tax:税率相关
total_price:总价
unit_price:单价
hourseType:户型
hourseSize:面积
Direction:房间朝向
Fitment:装修
数据处理与清洗前先复制一份数据,保留数据的完整性,备用。
1.删除重复值
对数据集序号这个唯一标识进行去重,结果显示没有重复值
2.处理缺失值
对数据集序号这个唯一标识进行空值查询,结果显示没有空值
3.一致化处理
3.1 增加“year”列:对原有“tax”列做处理
IF(F2="房本满五年","满五年房","未满五年房")
3.2 分列处理房间朝向
3.3 常规类型改成数值类型,方便后续计算分析;删除无关分析的列
按照以上步骤,处理和清洗好的数据如下:
将数据导入tableau进行可视化分析。
1.各区房源数量分布
总体来看,深圳二手房市场可谓相当活跃,可能是因为链家网站数据限制的原因,福田区、龙岗区、罗湖区、南山区同时拥有最多的房源,龙岗作为唯一的关外地区,二手房市场也是相当的活跃;其次是龙华区,与宝安区数量基本持平;接着是盐田区和坪山区,坪山区作为正式成立不久的地区,正在进行大拆大建的进程中,二手房数量最少也能理解。
1.1这里还可以深入探讨一下二手房数量是否与GDP高低相关?
在网上找到刚刚发布不久的深圳2019全年GDP排名:
GDP排名:南山、龙岗、福田、宝安、龙华、罗湖、光明、坪山、盐田
房源排名:南山、龙岗、福田、罗湖、龙华、宝安、盐田、坪山、光明(链家无房源)
将数据制成表导入tableau,与原表按照字段“area”链接后进行下一步处理。
先观察散点图:
有点像对数函数,可以先尝试一下对数函数
二手房数量=1054.07*ln(GDP) + -5890.8
R平方=0.804266(模型好像还不错)
R平方(决定系数):也称为判定系数、拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释。
R平方为回归平方和与总离差平方和的比值,这一比例越大越好,模型越精确,回归效果越显著。R平方介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高。
结论:
该处二手房数量与GDP的R平方计算出来为0.804266,回归拟合效果较好,自变量对因变量的解释程度较高,可靠性高。(数据量不够多,存在偏差情况,图形仅供参考)
2.各区二手房市场均价
南山区的二手房平均房价高达92000+元/平方,最少的坪山区也达到了35000+元/平方,看完这个数据,弱弱的小编我默不作声了。。。
3.各区二手房总价分布箱线图
从箱线图可以看出,深圳各区超过最大值的异常值都不少,说明深圳的房价极端分布,高端建筑很多。各区的中位数都超过了300W,其中南山、福田、龙华、宝安的中位数已经超过500W。看来想在深圳买个二手房,还有漫长的路要走。一手房那就更不敢想了。
4. 各区二手房单价分布箱线图
同样,各区二手房单价的异常值也很多,各区的中位数都超过了35000元/平方,各位且行且珍惜吧。
1.二手房价格整体概览
1.1 总价格分布
1000W以下的房子几乎占了90%
最左边竖线为下四分位线:328W;
中间竖线为中位数:633W;
最右边为上四分位线:1298W;
平均值:687W;
最小值:24W;
最大值:8800W(招商华侨城曦城五期,600平方,单价14K,太壕了)。
1.2 单价分布
房源单价集中在30K-90K元/平方之间
最左边竖线为下四分位线:46442元/平方;
中间竖线为中位数:60548元/平方;
最右边为上四分位线:79898元/平方;
平均值:64893元/平方;
最小值:506元/平方;
最大值:225635元/平方(金茂礼都,31平方,总价720W,真是寸土寸金啊)。
2.二手房特点分析
2.1 户型分析
3室2厅的户型是最多的,符合中国人偏好3室的特点;其次是“2室1厅”,在老房子中也是很普遍。
3房2厅平均面积有102.80平方,单价中位数56494元/平方,总价中位数545万。
2.2 面积分布
50-100平方的房源占了一半的数量,房源的面积基本在150平方以下。
最大的房源面积来自宝安区的弘雅花园第二期,共计10871平方(真的吗?真是壕无人性,小编瑟瑟发抖ing)此处原数据集大概率有误,因为单价才506元/平方;
最小的房源面积13.15平方;中位数88.26平方;平均值100.62平方。
2.3 朝向分布
朝南、东南、北的房源是最多的,中国人自古讲究房屋坐北向南,无论风水还是居住舒适程度,这都会促使居民选择这一类房子,也同样促使开发商尽量开发朝南、朝北的房子。
2.4 地段分布
龙岗区的龙岗中心城是房源数量最多的地段,其次还有宝安区的西乡、龙华区的龙华中心和观澜、盐田区的沙头角;
总价(中位数)最高的地段是宝安区的曦城,其次还有南山区的红树湾和深圳湾、福田区的香蜜湖和百花;
单价(中位数)最高的地段是南山区的深圳湾,其次还有福田区的百花和香蜜湖,南山区的红树湾,宝安区的宝安中心。
综合来讲,房源数量最多的地段是龙岗区、宝安区和龙华区,房源较多的地段,价格相对而言会便宜一些;而无论是总价和单价,最多的地区都是南山区、福田区和宝安区,这和近年来深圳南山、福田、宝安大力发展高新科技企业、吸纳高层次人才是密切相关的。
那为什么龙岗中心城的房源数量最多呢?
首先,龙岗中心城是龙岗区的CBD地段,而龙岗区的房源是全市最多的地区之一,因此龙岗中心城的房源数量可观;
其次,近年来龙岗区虽然是关外地区,但发展势头迅猛,GDP接连超过宝安、福田,直逼南山,在经济、人才、建设、娱乐等多方面丝毫不落下风,常驻人口逐年上升,预计还会有更多的房源;
再者,龙岗作为深圳市地域面积最大的一个区域,拥有大量的土地资源,再加上有地铁和密集公路网的优越交通条件,所以龙岗中心城将会更加完善更加宜居。
总之,龙岗潜力无限。
2.5 装修分布
在深圳二手房市场中,各区的精装房占了绝大多数,毛坯房的数量极少,且两者的价格都比较高;而简装房的单价和总价更低一些。
2.6 房龄分布
a.超过五年的房源占比高;
b.像坪山刚成立不久的地区,房子大多比较新;
c.从数据可以看出,老房子和新房子的单价并没有太大差异,也就是说,房龄并不是造成房子单价差异的原因,这可能是和深圳地少人多,房地产市场一直处于饱满的状态有关。
1.从区域来看,福田区、龙岗区、罗湖区、南山区的二手房房源最多,房源数量与各区GDP呈现出某种对数关系;南山区、福田区、宝安区的均价位列前三甲,其主要原因是这些地方房价普遍价高再加上大量的异常值,进一步拉高了价格;此外,各区房源总价中位数均超过了300W,单价中位数均超过了35000元/平方;
2.从具体的地段上看,龙岗区的龙岗中心城是房源数量最多的地段,其次还有宝安区的西乡、龙华区的龙华中心和观澜,这些地段的房源多价格也相对较低,其中龙岗区的龙岗中心城共有763套房源,总价中位数390W,单价中位数38015元/平方。
3.从二手房市场整体来看,绝大部分房源总价在1500W以下,中位数633W,平均值687W,范围从24W到8800W;房源单价集中在30K-90K元/平方,中位数60548元/平方,平均值64893元/平方,范围从506元/平方到225635元/平方。
4.从二手房特点来看,3室2厅户型的房源数量最多,其次是2室1厅;朝南房数量最多,其次是朝东南和朝北房;超过一半房源面积在50平方-100平方之间;精装房占了绝大多数,毛坯房的数量极少且这两者的价格都比较高,而简装房的单价和总价更低一些;除坪山外,老房子(超过五年)的数量都要比新房子(少于5年)多,老房子和新房子的单价并无太大区别。