iris_data: 用于分类的三类别鸢尾花数据集

一个将 iris 数据集加载到 NumPy 数组中的函数。

from mlxtend.data import iris_data

概述

用于分类的 Iris 数据集。

特征

  1. 花萼长度
  2. 花萼宽度
  3. 花瓣长度
  4. 花瓣宽度

  5. 样本数:150

  6. 目标变量(离散):{50 个山鸢尾, 50 个变色鸢尾, 50 个弗吉尼亚鸢尾}

参考

示例 1 - 数据集概述

from mlxtend.data import iris_data
X, y = iris_data()

print('Dimensions: %s x %s' % (X.shape[0], X.shape[1]))
print('\nHeader: %s' % ['sepal length', 'sepal width',
                        'petal length', 'petal width'])
print('1st row', X[0])
Dimensions: 150 x 4

Header: ['sepal length', 'sepal width', 'petal length', 'petal width']
1st row [5.1 3.5 1.4 0.2]
import numpy as np
print('Classes: Setosa, Versicolor, Virginica')
print(np.unique(y))
print('Class distribution: %s' % np.bincount(y))
Classes: Setosa, Versicolor, Virginica
[0 1 2]
Class distribution: [50 50 50]

API

iris_data(version='uci')

鸢尾花数据集。

  • 来源 : https://archive.ics.uci.edu/ml/datasets/Iris

  • 样本数 : 150

  • 类别标签 : {0, 1, 2}, 分布: [50, 50, 50]

    0 = 山鸢尾, 1 = 变色鸢尾, 2 = 弗吉尼亚鸢尾。

    数据集属性

    • 1) 花萼长度 [厘米]
    • 2) 花萼宽度 [厘米]
    • 3) 花瓣长度 [厘米]
    • 4) 花瓣宽度 [厘米]

参数

  • version : 字符串,可选(默认:'uci')。

    要使用的版本 {'uci', 'corrected'}。'uci' 加载 UCI 机器学习库中的数据集,而 'corrected' 提供与 Fisher 原始论文一致的版本。详情请参阅注意。

返回值

  • X, y : [样本数, 特征数], [类别标签数]

    X 是特征矩阵,包含 150 个鸢尾花样本作为行,以及 4 个特征列:花萼长度、花萼宽度、花瓣长度和花瓣宽度。y 是一个一维数组,包含类别标签 {0, 1, 2}。

注意

鸢尾花数据集(最初由 Edgar Anderson 收集)和 UCI 机器学习库中的版本与 R.A. Fisher 原始论文 [1] 中描述的鸢尾花数据集不同。具体来说,UCI 机器学习库中有两个数据点(行号 34 和 37)与最初发布的鸢尾花数据集不同。此外,可以通过 version='corrected' 加载的原始版本鸢尾花数据集与 R 中的版本相同。

[1] . A. Fisher (1936). "The use of multiple measurements in taxonomic
problems". Annals of Eugenics. 7 (2): 179–188

示例

有关使用示例,请参阅 https://mlxtend.cn/mlxtend/user_guide/data/iris_data/