iris_data: 用于分类的三类别鸢尾花数据集

一个将 iris 数据集加载到 NumPy 数组中的函数。

from mlxtend.data import iris_data

概述

用于分类的 Iris 数据集。

特征

花萼长度
花萼宽度
花瓣长度
花瓣宽度
样本数：150
目标变量（离散）：{50 个山鸢尾, 50 个变色鸢尾, 50 个弗吉尼亚鸢尾}

参考

来源：https://archive.ics.uci.edu/ml/datasets/Iris
Bache, K. & Lichman, M. (2013). UCI 机器学习库。尔湾，加利福尼亚州：加州大学信息与计算机科学学院。

示例 1 - 数据集概述

from mlxtend.data import iris_data
X, y = iris_data()

print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('\nHeader: %s' % ['sepal length', 'sepal width',
                        'petal length', 'petal width'])
print('1st row', X[0])

Dimensions: 150 x 4

Header: ['sepal length', 'sepal width', 'petal length', 'petal width']
1st row [5.1 3.5 1.4 0.2]

import numpy as np
print('Classes: Setosa, Versicolor, Virginica')
print(np.unique(y))
print('Class distribution: %s' % np.bincount(y))

Classes: Setosa, Versicolor, Virginica
[0 1 2]
Class distribution: [50 50 50]

API

iris_data(version='uci')

鸢尾花数据集。

来源 : https://archive.ics.uci.edu/ml/datasets/Iris
样本数 : 150
类别标签 : {0, 1, 2}, 分布: [50, 50, 50]

0 = 山鸢尾, 1 = 变色鸢尾, 2 = 弗吉尼亚鸢尾。

数据集属性
- 1) 花萼长度 [厘米]
- 2) 花萼宽度 [厘米]
- 3) 花瓣长度 [厘米]
- 4) 花瓣宽度 [厘米]

参数

version : 字符串，可选（默认：'uci'）。

要使用的版本 {'uci', 'corrected'}。'uci' 加载 UCI 机器学习库中的数据集，而 'corrected' 提供与 Fisher 原始论文一致的版本。详情请参阅注意。

返回值

X, y : [样本数, 特征数], [类别标签数]

X 是特征矩阵，包含 150 个鸢尾花样本作为行，以及 4 个特征列：花萼长度、花萼宽度、花瓣长度和花瓣宽度。y 是一个一维数组，包含类别标签 {0, 1, 2}。

注意

鸢尾花数据集（最初由 Edgar Anderson 收集）和 UCI 机器学习库中的版本与 R.A. Fisher 原始论文 [1] 中描述的鸢尾花数据集不同。具体来说，UCI 机器学习库中有两个数据点（行号 34 和 37）与最初发布的鸢尾花数据集不同。此外，可以通过 version='corrected' 加载的原始版本鸢尾花数据集与 R 中的版本相同。

[1] . A. Fisher (1936). "The use of multiple measurements in taxonomic
problems". Annals of Eugenics. 7 (2): 179–188

示例

有关使用示例，请参阅 https://mlxtend.cn/mlxtend/user_guide/data/iris_data/

按键	操作
`?`	打开此帮助
`n`	下一页
`p`	上一页
`s`	搜索