autompg_data:用于回归的 Auto-MPG 数据集
一个将 autompg
数据集加载到 NumPy 数组中的函数。
from mlxtend.data import autompg_data
概述
用于回归分析的 Auto-MPG 数据集。目标 (y
) 定义为 392 辆汽车的每加仑英里数 (mpg)(已删除 6 行包含“NaN”的记录)。8 个特征列为
特征
- 气缸数:多值离散
- 排量:连续
- 马力:连续
- 重量:连续
- 加速度:连续
- 车型年份:多值离散
- 产地:多值离散
-
汽车名称:字符串(每个实例唯一)
-
样本数:392
-
目标变量(连续):mpg
参考文献
- 来源: https://archive.ics.uci.edu/ml/datasets/Auto+MPG
- Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.
示例 - 数据集概述
from mlxtend.data import autompg_data
X, y = autompg_data()
print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('\nHeader: %s' % ['cylinders', 'displacement',
'horsepower', 'weight', 'acceleration',
'model year', 'origin', 'car name'])
print('1st row', X[0])
Dimensions: 392 x 8
Header: ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'car name']
1st row [ 8.00000000e+00 3.07000000e+02 1.30000000e+02 3.50400000e+03
1.20000000e+01 7.00000000e+01 1.00000000e+00 nan]
请注意,特征数组包含一个 str
列(“汽车名称”),因此建议根据需要选取特征并将其转换为 float
数组以进行进一步分析。下面的示例展示了如何去掉 car name
列并将 NumPy 数组转换为 float
数组。
X[:, :-1].astype(float)
array([[ 8. , 307. , 130. , ..., 12. , 70. , 1. ],
[ 8. , 350. , 165. , ..., 11.5, 70. , 1. ],
[ 8. , 318. , 150. , ..., 11. , 70. , 1. ],
...,
[ 4. , 135. , 84. , ..., 11.6, 82. , 1. ],
[ 4. , 120. , 79. , ..., 18.6, 82. , 1. ],
[ 4. , 119. , 82. , ..., 19.4, 82. , 1. ]])
API
autompg_data()
Auto MPG 数据集。
-
来源
: https://archive.ics.uci.edu/ml/datasets/Auto+MPG -
样本数
: 392 -
连续目标变量
: mpg数据集属性
- 1) 气缸数:多值离散
- 2) 排量:连续
- 3) 马力:连续
- 4) 重量:连续
- 5) 加速度:连续
- 6) 车型年份:多值离散
- 7) 产地:多值离散
- 8) 汽车名称:字符串(每个实例唯一)
返回值
-
X, y
: [样本数, 特征数], [目标数]X 是特征矩阵,包含 392 个汽车样本(行)和 8 个特征列(已移除 6 行包含 NaNs 的记录)。y 是目标 MPG 值的一维数组。
示例
有关使用示例,请参见 https://mlxtend.cn/mlxtend/user_guide/data/autompg_data/