机器学习算法笔记(二十七)：混淆矩阵、精准率与召回率、F1 Score

对于回归问题来说，评论算法的好坏我们讨论过 MSE、MAE、RMSE、R Squared。但对于分类算法的评价，我们在前面始终使用“分类准确度”这一个指标。实际上分配准确度在评价分类算法的时候是存在问题的，这时我们就要引入混淆矩阵、精准率与召回率的概念。

一、分类准确度的局限性

如果我们要编写一个癌症预测系统，输入一个人体检的信息指标，可以判断此人是否有癌症，思路当然是收集大量的数据，训练机器学习算法模型，进而完成癌症预测系统。假如最终我们以分类准确度来评价这个算法的好坏，就可以假设以下两种情况：

● 如果该种癌症在人群中产生的概率只有 0.1%，那么即使随便一个系统，预测所有人都是健康，该系统也可达到 99.9% 的准确率；也就是说，即使该系统什么都不做，也可以达到 99.9% 的准确率。
● 如果该种癌症在人群中产生的概率只有 0.01%，此时即使系统什么都不做，其预测准确率也能达到 99.99%，则该机器学习算法的模型是失败的。

由上面的假设可以看到，对于极度偏斜(Skewed Data)的数据，只使用分类准确度是远远不够的（比如上面癌症患者和健康人的人数之比是非常小的）。面对这种极度偏斜的数据，虽然分类准确度可能非常的高，其实算法是不够好的，甚至有些情况下非常烂的算法也能得到非常高的准确度。这时我们就要引入其他指标，在极度偏斜的情况下也能很好反映分类的算法的好坏。

二、混淆矩阵

首先我们引入一个非常基础的工具——混淆矩阵(Confusion Matrix)。

● 混淆矩阵中矩阵的最上一行代表预测值，最左列为真实值。
● 0 代表负例(Negative)，1 代表正例(Positive)。
● TN、FP、FN、TP：表示预测结果的样本数量。
● TN(True Negative)：实际值为 Negative，预测值为 Negative，预测 negative 正确。
● FP（False Positive）：实际值为 Negative，预测值为 Positive，预测 Positive 错误。
● FN（False Negative）：实际值为 Positive，预测值为 Negative，预测 Negative 错误。
● TP（True Positive）：实际值为 Positive，预测值为 Positive，预测 Positive 正确。

下面我们继续举预测癌症的例子来具体说明混淆矩阵：

● 9978：9978 个人本身没有患癌症，同时算法预测他们也没有患癌症。
● 12：12个人本身没有患癌症，但算法预测他们患有癌症。
● 2：2个人本身患有癌症，但算法预测他们没有患癌症。
● 8：8个人本身患有癌症，同时算法预测他们也患有癌症。

三、精准率和召回率

我们回到上一节癌症的例子：

接下来我们就要基于上面的例子来讨论两个新的概念——精准率(precision)和召回率(recall)。

1、精准率

● 定义：预测所关注的事件的结果中，预测正确的概率（共预测了 20 次，8 次正确，12 次错误）。
● 公式：

以预测癌症为例，预测精准率 = TP / (TP + FP) = 8 / (8 + 12) = 40%，代表每做 100个患病的预测（预测值为 1），平均会有 40个是正确的。

2、召回率（查全率）

● 定义：对所有所关注的类型，将其预测出的概率（共 10 个癌症患者，预测出 8 个）。
● 公式：

以预测癌症为例，召回率 = TP / (TP + FN) = 8 / (8 + 2) = 80%，代表每 100个癌症患者中，通过该预测系统，能够成功的找出 80个癌症患者。

结合精准率和召回率的概念，我们再来看一下一个预测所有人都健康的预测癌症算法，它的混淆矩阵和准确率、召回率的情况：

从而我们看出，在极度偏斜的数据中，我们不看准确率，使用精准率和召回率才能更加准确评价分类系统的好坏。

四、编程实现计算准确率和召回率

新建一个工程，创建一个main.py文件，实现如下代码：

import numpy as np
from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
y = digits.target.copy() #y是标记的拷贝，避免下面对y修改后digits.target也变化的情况

y[digits.target==9] = 1
y[digits.target!=9] = 0

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
print(log_reg.score(X_test, y_test)) #prints: 0.9755555555555555

y_log_predict = log_reg.predict(X_test)

def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 0))

def FP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 1))

def FN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 0))

def TP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 1))

#生成混淆矩阵
def confusion_matrix(y_true, y_predict):
    return np.array([
        [TN(y_true, y_predict), FP(y_true, y_predict)],
        [FN(y_true, y_predict), TP(y_true, y_predict)]
    ])

print(confusion_matrix(y_test, y_log_predict))
"""prints: [[403   2]
            [  9  36]]"""

#计算准确率
def precision_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fp = FP(y_true, y_predict)
    try:
        return tp / (tp + fp) #防止分母为零的状况
    except:
        return 0.0

print(precision_score(y_test, y_log_predict)) #prints: 0.9473684210526315

#计算召回率
def recall_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fn = FN(y_true, y_predict)
    try:
        return tp / (tp + fn) #防止分母为零的状况
    except:
        return 0.0

print(recall_score(y_test, y_log_predict)) #prints: 0.8

在sklearn中，也为我们封装好了相应的接口，调用如下：

from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_log_predict))

from sklearn.metrics import precision_score
print(precision_score(y_test, y_log_predict))

from sklearn.metrics import recall_score
print(recall_score(y_test, y_log_predict))

打印结果应该与自己实现的函数相同。

五、F1 Score

从上文中我们看到，精准率和召回率是两个指标，具体使用算法时我们怎么通过精准率和召回率判断算法优劣？其实这和机器学习领域中大多数关于取舍问题的答案是一样的，我们要根据具体使用场景而定。

● 在预测未来该股票是涨还是跌的情况下，我们要求更精准的找到能够上涨的股票，若出现误判（FP的错误）会造成实实在在金钱损失。此情况下，模型精准率越高越好，即使召回率低一些也没关系——即使我们落下了一些股票的上升周期也并没有关系，我们并不会有金钱上的损失。但如果我们错误判断一个股票会上涨（实际上是下跌）从而投资，那我们就会有实际的损失。在这种情况下，精准率比召回率更重要。

● 在诊断一个人是否患病的情况下，我们要求更全面的找出所有患病的病人，而且尽量不漏掉一个患者；甚至说即使将正常人员判断为病人也没关系，只要不将病人判断成健康人员就好。此情况下，模型召回率越高越好。

还有一些其他情况，我们不用特别关心精准率也不用特别关心召回率，我们希望同时关注这两种指标，这种情况下，我们就使用一种新的指标——F1 Score。F1 Score 实际上是精准率和召回率的调和平均值，用公式表示就是：

如果 1/a = (1/b + 1/c) / 2，则称 a 是 b 和 c 的调和平均值。调和平均值的特点为：|b – c| 越大，a 越小；当 b – c = 0 时，a = b = c，a 达到最大值。具体到精准率和召回率，只有当二者大小均衡时，F1 指标才高。

在 sklearn 中，为我们封装好了计算 F1 Score 的函数（虽然自己实现也很简单），我们利用上文手写数据集的数据，调用如下：

from sklearn.metrics import f1_score
print(f1_score(y_test, y_log_predict)) #prints: 0.8674698795180723

对于这个有偏的数据，算法运行后的精准率和召回率都比准确率低一些，在这里精准率和召回率更能反映算法的结果。对于有偏的数据，使用逻辑回归进行预测，它的召回率是相对比较低的，所以 F1 Score 被比较低的召回率拉低了，最终的结果只有86.7%。相比准确度的 97.5%，我们倾向于认为 86.7% 这个指标更能反映这个算法的好坏。

打赏赞(1)

一、分类准确度的局限性

二、混淆矩阵

三、精准率和召回率

四、编程实现计算准确率和召回率

五、F1 Score

发表回复 取消回复

发表回复取消回复