iris_data: 用于分类的三类别鸢尾花数据集
一个将 iris
数据集加载到 NumPy 数组中的函数。
from mlxtend.data import iris_data
概述
用于分类的 Iris 数据集。
特征
- 花萼长度
- 花萼宽度
- 花瓣长度
-
花瓣宽度
-
样本数:150
-
目标变量(离散):{50 个山鸢尾, 50 个变色鸢尾, 50 个弗吉尼亚鸢尾}
参考
- 来源:https://archive.ics.uci.edu/ml/datasets/Iris
- Bache, K. & Lichman, M. (2013). UCI 机器学习库。尔湾,加利福尼亚州:加州大学信息与计算机科学学院。
示例 1 - 数据集概述
from mlxtend.data import iris_data
X, y = iris_data()
print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('\nHeader: %s' % ['sepal length', 'sepal width',
'petal length', 'petal width'])
print('1st row', X[0])
Dimensions: 150 x 4
Header: ['sepal length', 'sepal width', 'petal length', 'petal width']
1st row [5.1 3.5 1.4 0.2]
import numpy as np
print('Classes: Setosa, Versicolor, Virginica')
print(np.unique(y))
print('Class distribution: %s' % np.bincount(y))
Classes: Setosa, Versicolor, Virginica
[0 1 2]
Class distribution: [50 50 50]
API
iris_data(version='uci')
鸢尾花数据集。
-
来源
: https://archive.ics.uci.edu/ml/datasets/Iris -
样本数
: 150 -
类别标签
: {0, 1, 2}, 分布: [50, 50, 50]0 = 山鸢尾, 1 = 变色鸢尾, 2 = 弗吉尼亚鸢尾。
数据集属性
- 1) 花萼长度 [厘米]
- 2) 花萼宽度 [厘米]
- 3) 花瓣长度 [厘米]
- 4) 花瓣宽度 [厘米]
参数
-
version
: 字符串,可选(默认:'uci')。要使用的版本 {'uci', 'corrected'}。'uci' 加载 UCI 机器学习库中的数据集,而 'corrected' 提供与 Fisher 原始论文一致的版本。详情请参阅注意。
返回值
-
X, y
: [样本数, 特征数], [类别标签数]X 是特征矩阵,包含 150 个鸢尾花样本作为行,以及 4 个特征列:花萼长度、花萼宽度、花瓣长度和花瓣宽度。y 是一个一维数组,包含类别标签 {0, 1, 2}。
注意
鸢尾花数据集(最初由 Edgar Anderson 收集)和 UCI 机器学习库中的版本与 R.A. Fisher 原始论文 [1] 中描述的鸢尾花数据集不同。具体来说,UCI 机器学习库中有两个数据点(行号 34 和 37)与最初发布的鸢尾花数据集不同。此外,可以通过 version='corrected'
加载的原始版本鸢尾花数据集与 R 中的版本相同。
[1] . A. Fisher (1936). "The use of multiple measurements in taxonomic
problems". Annals of Eugenics. 7 (2): 179–188
示例
有关使用示例,请参阅 https://mlxtend.cn/mlxtend/user_guide/data/iris_data/