combined_ftest_5x2cv: 用于分类器比较的 5x2cv 联合 F 检验

比较两个模型性能的 5x2cv 联合 F 检验过程

from mlxtend.evaluate import combined_ftest_5x2cv

概述

5x2cv 联合 F 检验是一种比较两个模型（分类器或回归器）性能的过程，由 Alpaydin [1] 提出，作为 Dietterich 的 5x2cv 配对 t 检验过程 [2] 更鲁棒的替代方法。 paired_ttest_5x2cv.md。Dietterich 的 5x2cv 方法旨在解决其他方法的缺点，例如重采样配对 t 检验（参见 paired_ttest_resampled）和 K 折交叉验证配对 t 检验（参见 paired_ttest_kfold_cv）。

为了解释该方法的工作原理，我们考虑两个估计器（例如，分类器）A 和 B。此外，我们有一个标记数据集 D。在常用的留出法（hold-out method）中，我们通常将数据集分成两部分：训练集和测试集。在 5x2cv 配对 t 检验中，我们将分割（50% 训练数据和 50% 测试数据）重复 5 次。

在 5 次迭代中的每一次，我们将 A 和 B 拟合到训练分割，并在测试分割上评估其性能（ $p_A$ 和 $p_B$ ）在测试分割上。然后，我们轮换训练集和测试集（训练集变成测试集，反之亦然），再次计算性能，这产生 2 个性能差异度量

$p^{(1)} = p^{(1)}_A - p^{(1)}_B$

和

$p^{(2)} = p^{(2)}_A - p^{(2)}_B.$

然后，我们估计差异的均值和方差

$\overline{p} = \frac{p^{(1)} + p^{(2)}}{2}$

和

$s^2 = (p^{(1)} - \overline{p})^2 + (p^{(2)} - \overline{p})^2.$

由 Alpaydin 提出的 F 统计量（参见论文获取理由）然后计算为

$\mathcal{f} = \frac{\sum_{i=1}^{5} \sum_{j=1}^2 (p_i^{j})^2}{2 \sum_{i=1}^5 s_i^2},$

其近似服从自由度为 10 和 5 的 F 分布。

使用 f 统计量，可以计算 p 值并与预先选择的显著性水平进行比较，例如， $\alpha=0.05$ 。如果 p 值小于 $\alpha$ ，则我们拒绝原假设，并接受两个模型之间存在显著差异。

参考文献

[1] Alpaydin, E. (1999). 用于比较监督分类学习算法的 5×2 cv 联合 F 检验。Neural computation, 11(8), 1885-1892.
[2] Dietterich TG (1998) 用于比较监督分类学习算法的近似统计检验。Neural Comput 10:1895–1923.

示例 1 - 5x2cv 联合 F 检验

假设我们要比较两种分类算法：逻辑回归和决策树算法

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from mlxtend.data import iris_data
from sklearn.model_selection import train_test_split


X, y = iris_data()
clf1 = LogisticRegression(random_state=1, solver='liblinear', multi_class='ovr')
clf2 = DecisionTreeClassifier(random_state=1)

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.25,
                     random_state=123)

score1 = clf1.fit(X_train, y_train).score(X_test, y_test)
score2 = clf2.fit(X_train, y_train).score(X_test, y_test)

print('Logistic regression accuracy: %.2f%%' % (score1*100))
print('Decision tree accuracy: %.2f%%' % (score2*100))

Logistic regression accuracy: 97.37%
Decision tree accuracy: 94.74%

请注意，这些准确度值并未用于配对 f 检验过程，因为在重采样过程中会生成新的测试/训练分割；上面的值仅用于直观理解。

现在，假设显著性阈值为 $\alpha=0.05$ 用于拒绝两个算法在数据集上表现相同的原假设，并进行 5x2cv f 检验

from mlxtend.evaluate import combined_ftest_5x2cv


f, p = combined_ftest_5x2cv(estimator1=clf1,
                            estimator2=clf2,
                            X=X, y=y,
                            random_seed=1)

print('F statistic: %.3f' % f)
print('p value: %.3f' % p)

F statistic: 1.053
p value: 0.509

因为 $p > \alpha$ ，我们不能拒绝原假设，可以得出结论，这两种算法的性能没有显著差异。

虽然通常不建议在不进行多重假设检验校正的情况下多次应用统计检验，但我们来看一个示例，其中决策树算法被限制产生一个非常简单的决策边界，这将导致相对较差的性能

clf2 = DecisionTreeClassifier(random_state=1, max_depth=1)

score2 = clf2.fit(X_train, y_train).score(X_test, y_test)
print('Decision tree accuracy: %.2f%%' % (score2*100))


f, p = combined_ftest_5x2cv(estimator1=clf1,
                            estimator2=clf2,
                            X=X, y=y,
                            random_seed=1)

print('F statistic: %.3f' % f)
print('p value: %.3f' % p)

Decision tree accuracy: 63.16%
F statistic: 34.934
p value: 0.001

假设我们也使用显著性水平 $\alpha=0.05$ 进行了这项检验，我们可以拒绝原假设，即两个模型在该数据集上的表现相同，因为 p 值（ $p < 0.001$ ）小于 $\alpha$ .

API

combined_ftest_5x2cv(estimator1, estimator2, X, y, scoring=None, random_seed=None)

实现由 Alpaydin 1999 年提出的 5x2cv 联合 F 检验，用于比较两个模型的性能。

参数

estimator1 : scikit-learn 分类器或回归器
estimator2 : scikit-learn 分类器或回归器
X : {array-like, 稀疏矩阵}, shape = [n_samples, n_features]

训练向量，其中 n_samples 是样本数量，n_features 是特征数量。
y : array-like, shape = [n_samples]

目标值。
scoring : str, callable, 或 None (默认: None)
如果为 None (默认)，则对 sklearn 分类器使用 'accuracy'，对 sklearn 回归器使用 'r2'。如果为 str，则使用 sklearn 评分指标字符串标识符，例如分类器的 {accuracy, f1, precision, recall, roc_auc}，回归器的 {'mean_absolute_error', 'mean_squared_error'/'neg_mean_squared_error', 'median_absolute_error', 'r2'}。如果提供可调用对象或函数，则必须符合 sklearn 的签名 scorer(estimator, X, y)；更多信息请参阅 https://scikit-learn.cn/stable/modules/generated/sklearn.metrics.make_scorer.html。

如果为 None（默认），对 sklearn 分类器使用 'accuracy'，对 sklearn 回归器使用 'r2'。如果为字符串（str），则使用一个 sklearn 评分指标字符串标识符，例如对于分类器是 {accuracy, f1, precision, recall, roc_auc}，对于回归器是 {'mean_absolute_error', 'mean_squared_error'/'neg_mean_squared_error', 'median_absolute_error', 'r2'}。如果提供一个可调用对象或函数，它必须符合 sklearn 的签名 scorer(estimator, X, y)；更多信息请参见 https://scikit-learn.cn/stable/modules/generated/sklearn.metrics.make_scorer.html。
random_seed : int 或 None (默认: None)

用于创建测试/训练分割的随机种子。

返回值

f : float
F 统计量

F 统计量
pvalue : float
双尾 p 值。如果所选显著性水平大于 p 值，则我们拒绝原假设，并接受两个被比较模型之间存在显著差异。

双尾 p 值。如果选择的显著性水平大于 p 值，我们拒绝零假设，并接受两个比较的模型存在显著差异。

示例

有关用法示例，请参见 https://mlxtend.cn/mlxtend/user_guide/evaluate/combined_ftest_5x2cv/

键	操作
`?`	打开此帮助
`n`	下一页
`p`	上一页
`s`	搜索