autompg_data:用于回归的 Auto-MPG 数据集

一个将 autompg 数据集加载到 NumPy 数组中的函数。

from mlxtend.data import autompg_data

概述

用于回归分析的 Auto-MPG 数据集。目标 (y) 定义为 392 辆汽车的每加仑英里数 (mpg)(已删除 6 行包含“NaN”的记录)。8 个特征列为

特征

  1. 气缸数:多值离散
  2. 排量:连续
  3. 马力:连续
  4. 重量:连续
  5. 加速度:连续
  6. 车型年份:多值离散
  7. 产地:多值离散
  8. 汽车名称:字符串(每个实例唯一)

  9. 样本数:392

  10. 目标变量(连续):mpg

参考文献

  • 来源: https://archive.ics.uci.edu/ml/datasets/Auto+MPG
  • Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

示例 - 数据集概述

from mlxtend.data import autompg_data
X, y = autompg_data()

print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('\nHeader: %s' % ['cylinders', 'displacement', 
                        'horsepower', 'weight', 'acceleration',
                        'model year', 'origin', 'car name'])
print('1st row', X[0])
Dimensions: 392 x 8

Header: ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'car name']
1st row [  8.00000000e+00   3.07000000e+02   1.30000000e+02   3.50400000e+03
   1.20000000e+01   7.00000000e+01   1.00000000e+00              nan]

请注意,特征数组包含一个 str 列(“汽车名称”),因此建议根据需要选取特征并将其转换为 float 数组以进行进一步分析。下面的示例展示了如何去掉 car name 列并将 NumPy 数组转换为 float 数组。

X[:, :-1].astype(float)
array([[   8. ,  307. ,  130. , ...,   12. ,   70. ,    1. ],
       [   8. ,  350. ,  165. , ...,   11.5,   70. ,    1. ],
       [   8. ,  318. ,  150. , ...,   11. ,   70. ,    1. ],
       ..., 
       [   4. ,  135. ,   84. , ...,   11.6,   82. ,    1. ],
       [   4. ,  120. ,   79. , ...,   18.6,   82. ,    1. ],
       [   4. ,  119. ,   82. , ...,   19.4,   82. ,    1. ]])

API

autompg_data()

Auto MPG 数据集。

  • 来源 : https://archive.ics.uci.edu/ml/datasets/Auto+MPG

  • 样本数 : 392

  • 连续目标变量 : mpg

    数据集属性

    • 1) 气缸数:多值离散
    • 2) 排量:连续
    • 3) 马力:连续
    • 4) 重量:连续
    • 5) 加速度:连续
    • 6) 车型年份:多值离散
    • 7) 产地:多值离散
    • 8) 汽车名称:字符串(每个实例唯一)

返回值

  • X, y : [样本数, 特征数], [目标数]

    X 是特征矩阵,包含 392 个汽车样本(行)和 8 个特征列(已移除 6 行包含 NaNs 的记录)。y 是目标 MPG 值的一维数组。

示例

有关使用示例,请参见 https://mlxtend.cn/mlxtend/user_guide/data/autompg_data/