boston_housing_data: 用于回归分析的波士顿住房数据集

boston_housing_data 数据集加载到 NumPy 数组中的函数。

from mlxtend.data import boston_housing_data

概述

用于回归分析的波士顿住房数据集。

特征

  1. CRIM: 按城镇划分的人均犯罪率
  2. ZN: 规划用于面积超过 25,000 平方英尺地块的住宅用地比例
  3. INDUS: 按城镇划分的非零售商业用地比例
  4. CHAS: 查尔斯河虚拟变量(= 1 如果地块与河流相邻;否则为 0)
  5. NOX: 一氧化氮浓度(千万分之一)
  6. RM: 每住宅的平均房间数
  7. AGE: 1940 年之前建造的自住单位比例
  8. DIS: 到波士顿五个就业中心的加权距离
  9. RAD: 径向公路可达性指数
  10. TAX: 每 10,000 美元财产的完全价值房产税率
  11. PTRATIO: 按城镇划分的师生比例
  12. B: 1000(Bk - 0.63)^2,其中 Bk 是按城镇划分的黑人比例
  13. LSTAT: 人口中地位较低者的百分比

  14. 样本数量:506

  15. 目标变量(连续):MEDV,自住房屋中位数(千美元)

参考文献

示例 1 - 数据集概述

from mlxtend.data import boston_housing_data
X, y = boston_housing_data()

print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('1st row', X[0])
(506, 14)
Dimensions: 506 x 13
1st row [  6.32000000e-03   1.80000000e+01   2.31000000e+00   0.00000000e+00
   5.38000000e-01   6.57500000e+00   6.52000000e+01   4.09000000e+00
   1.00000000e+00   2.96000000e+02   1.53000000e+01   3.96900000e+02
   4.98000000e+00]

API

boston_housing_data()

波士顿住房数据集。

  • 来源 : https://archive.ics.uci.edu/ml/datasets/Housing

  • 样本数量 : 506

  • 连续目标变量 : MEDV

    MEDV = 自住房屋中位数(千美元)

    数据集属性

    • 1) CRIM 按城镇划分的人均犯罪率
    • 2) ZN 规划用于面积超过 25,000 平方英尺地块的住宅用地比例
    • 3) INDUS 按城镇划分的非零售商业用地比例
    • 4) CHAS 查尔斯河虚拟变量(= 1 如果地块与河流相邻;否则为 0)
    • 5) NOX 一氧化氮浓度(千万分之一)
    • 6) RM 每住宅的平均房间数
    • 7) AGE 1940 年之前建造的自住单位比例
    • 8) DIS 到波士顿五个就业中心的加权距离
    • 9) RAD 径向公路可达性指数
    • 10) TAX 每 10,000 美元财产的完全价值房产税率
    • 11) PTRATIO 按城镇划分的师生比例
    • 12) B 1000(Bk - 0.63)^2,其中 Bk 是按城镇划分的黑人比例
    • 13) LSTAT 人口中地位较低者的百分比

返回值

  • X, y : [样本数, 特征数], [类别标签数]

    X 是特征矩阵,包含 506 个住房样本作为行,13 个特征作为列。y 是连续目标变量 MEDV 的一维数组。

示例

有关用法示例,请参阅 https://mlxtend.cn/mlxtend/user_guide/data/boston_housing_data/