在数据科学实践中,结果的可靠性评估至关重要。准确理解结果的可靠程度能够为决策制定提供有力支持。
当我们能够量化结果的不确定性水平后,可以将其应用于以下方面:
进行场景规划,评估最优和最劣情况
开展风险评估,分析对决策的影响程度
实施模型评估,对比不同模型的性能表现
向决策者阐述结果的可信程度
不确定性的来源分析考虑一个具体示例:假设我们需要估算300平方米住宅的平均价格。显然收集所有300平方米住宅的数据是不切实际的,我们只能基于具有代表性的样本子集计算平均价格。
这就引出了不确定性的根源:采样过程。我们仅能获取总体的一个子集或样本的信息。由于样本无法完美代表整个总体,样本估计值与真实总体参数之间必然存在偏差,这种偏差即为采样误差。不同的采样方式会导致不同的结果。比如对同一类型住宅进行两次采样,得到的平均价格可能会有所不同。
在预测平均价格时,由于无法获取全部总体数据,只能基于总体的子集构建模型。这导致了采样不确定性的产生,因为无法准确获知平均价格(因变量)与面积(自变量)之间的精确关系。采样过程必然带来不确定性,这种不确定性需要通过科学的方法进行量化。所以可以通过设定一个预期真值所在的区间来实现这一目标。区间范围越窄,表明估计的确定性越高(假设区间具有足够的覆盖率)。
在统计学中,量化不确定性通常使用两个经常被混淆的概念:置信区间和预测区间。
这两个概念在统计学中具有基础性地位,因此在数据科学领域也有广泛应用。从宏观角度看,它们都为目标变量的估计提供了概率意义上的上下界,形成了量化不确定性的区间。
从更深层次来看,这两个概念描述的是不同的统计特性。因此不应该将它们等同使用。若将置信区间误解为预测区间,可能导致对不确定性的错误认知,进而影响决策的准确性。
本文旨在帮助读者理解这两个概念的区别,将详细讨论置信区间和预测区间各自的度量对象,并据此分析它们的差异及其适用场景。让我们首先探讨使用更为广泛的置信区间。
置信区间置信区间用于量化从样本集估计总体参数(如均值)时的采样不确定性。它反映了采样参数平均响应的不确定性程度。
仍以房价估算为例。我们需要估计300平方米住宅的平均价格。总体包含该类别的所有住宅。由于无法获取所有住宅的数据,只能收集部分住宅的样本数据。
针对采集的样本,可以通过以下公式计算样本均值的置信区间:
其中:x 表示均值z 表示置信水平对应的标准差倍数(95%置信水平时取1.96,99%置信水平时取2.576)s 表示样本标准差n 表示样本容量
这个过程可以对总体的不同样本重复进行。
置信区间的正确解读置信水平95%的实际含义是:如果重复进行多次采样过程,约95%的区间会包含真实的总体参数。这里的置信水平描述的是区间构建过程的长期特性,而非针对某个具体区间的特性。这并不意味着真值有95%的概率落在某个特定样本的区间内。这种解释方式体现了频率学派的统计思想。
上图展示了从正态分布中抽取不同样本并计算90%置信区间的情况。红色列表示不包含总体均值的置信区间。
这是一个需要仔细辨别的重要差异:95%的置信水平描述的是区间构建过程的整体特性,而非单个具体区间的性质。
以300平方米住宅为例,假设我们得到的95%置信区间为400,000元到1,000,000元。这意味着如果我们进行大量重复采样,约95%的样本产生的置信区间会包含真实均值。这种表述强调了在重复采样和区间计算过程中捕获真实均值的长期概率特性。
在实际应用中,人们常说"我们有95%的把握认为真实总体均值位于400,000元到1,000,000元之间"。虽然这种表述并不准确(因为它暗示了对特定区间的确定性),但这种表述方式更易于理解,它体现了95%的类似计算区间会包含真实参数这一特性。
置信区间宽度的影响因素从前述公式可以看出,影响置信区间宽度的主要因素有两个:总体方差和样本容量。
总体方差越大,样本之间的差异就越显著。这会导致样本标准差增大,进而使置信区间变宽。这种现象是合理的,因为更大的变异性意味着采样参数与总体参数的差异可能更大。
较大的样本容量能够降低异常值的影响,同时提高样本的代表性。这使得估计更为可靠从而产生更窄的置信区间。这一点在公式中也得到了体现:随着样本容量增加,分母变大,区间宽度相应减小。相反小样本容量会导致置信区间变宽,这是因为较少的采样提供的信息量较小,且更容易受到采样误差的影响。
预测区间预测区间用于量化基于特定自变量值和历史数据对未来单个观测值预测的不确定性。它需要同时考虑预期值估计的不确定性和个体值的随机波动。
如果德国300平方米住宅的95%预测区间为400,000元到1,000,000元,这表明任一300平方米住宅的实际价格有95%的概率落在该区间内。
预测区间宽度的影响因素预测区间的宽度主要受两个因素影响:模型估计的方差和目标变量的方差。与置信区间类似预测区间需要考虑模型估计的变异性。估计的方差越大,不确定性程度越高,预测区间就越宽。
预测区间还需要考虑目标变量本身的方差。目标变量的固有波动性越大,预测区间的宽度也会相应增加。
在理解了这些基本概念后,我们来探讨它们之间的关键差异。
置信区间与预测区间的核心差异置信区间的特征用于描述总体参数(如均值或回归系数)的不确定性。(虽然"我们有95%的把握认为总体均值落在这个范围内"这种表述在技术上并不严格准确)
主要关注历史数据和当前状态的分析
预测区间的特征用于描述具体预测值的不确定性。("我们有95%的把握认为下一个观测值会落在这个范围内")
主要关注对未来状态的预测考虑以下回归分析模型:
其中:y 代表目标变量E[x|y] 代表条件期望响应x 代表特征变量beta_0 代表斜率系数beta_1 代表截距系数epsilon 代表随机误差项
置信区间量化了条件期望值 E[y|x] 估计的采样不确定性。而预测区间则反映了 y 整个取值范围的不确定性,而不仅限于期望值。
上图示说明了置信区间与预测区间的区别:置信区间描述了给定x条件下y均值的不确定性(即 E[y|x]),而预测区间描述了给定x条件下单个y值的不确定性。
还是以房价预测的线性回归模型为例:对于300平方米的住宅,95%置信区间可能是(250,000元,270,000元),而95%预测区间则可能是(220,000元,300,000元)。
可以观察到预测区间明显宽于置信区间并且这是合理的。因为预测区间不仅需要考虑均值估计的不确定性,还要包含单个观测值的随机变异。预测区间反映了单个300平方米住宅价格的波动范围,而置信区间仅反映了该类住宅平均价格的估计精度。
所以如果使用置信区间来表示单个未来观测值的不确定性,可能会导致对预测精度的错误判断。
总结本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。文章通过详细的理论分析和具体示例,阐明了这两种区间的本质区别:置信区间用于量化总体参数(如均值)估计的不确定性,主要反映采样过程带来的统计不确定性;而预测区间则用于量化单个未来观测值的不确定性,需要同时考虑模型估计和随机变异的双重影响。
这种区别直接导致了预测区间通常比置信区间更宽。理解这两种区间的差异对于正确评估和解释数据分析结果至关重要,能够帮助数据科学从业者在实践中做出更准确的判断和决策。通过准确理解和恰当使用这两种统计工具,我们能够更好地量化和传达分析结果中的不确定性,从而提供更可靠的数据支持。
https://avoid.overfit.cn/post/26d6e057f7f94b159bdef2b7708b7ff0
作者:Jonte Dancker