如何计算排放量

视频: 《央视财经V讲堂》今天你的碳排放量超标了吗？20190706 | CCTV财经

内容

脚步
提示
你需要什么

在统计学中，离群值是与收集到的数据集中的其他值有很大差异的值。异常值可以表示数据分布的异常或测量错误，因此通常会从数据集中排除异常值。通过从数据集中消除异常值，您可以得出意想不到的或更准确的结论。因此，有必要能够计算和估计异常值，以确保正确理解统计数据。

脚步

1 学会识别潜在的异常值。 在从数据集中排除异常值之前，应识别潜在的异常值。离群值是与数据集中的大多数值有很大不同的值；换句话说，离群值在大多数值的趋势之外。这在值表或（尤其是）图表中很容易找到。如果绘制数据集中的值，离群值将远离大多数其他值。例如，如果大部分值落在一条直线上，那么离群值就位于这条直线的两侧。
- 例如，考虑一个表示房间内 12 个不同物体温度的数据集。如果 11 个物体大约是 70 度，而第 12 个物体（可能是一个熔炉）是 300 度，那么快速查看数值就可以表明该熔炉很可能是井喷。
2 按升序对数据进行排序。 确定异常值的第一步是计算数据集的中位数。如果数据集中的值按升序（从最小到最大）排列，则此任务将大大简化。
- 继续上面的例子，考虑以下表示多个物体温度的数据集：{71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}。该集合应按如下顺序排序：{69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}。
3 计算数据集的中位数。 数据集的中位数是数据集中间的值。如果数据集包含奇数个值，则中位数是数据集中前后有相同数量值的值。但是如果数据集包含偶数个值，那么您需要找到这两个平均值的算术平均值。请注意，在计算异常值时，中位数通常称为 Q2，因为它位于 Q1 和 Q3 之间，下四分位数和上四分位数，我们将在后面定义。
- 不要害怕使用具有偶数个值的数据集——两个均值的算术平均值将是一个不在数据集中的数字；这是正常的。但是如果两个平均值是同一个数字，那么算术平均值就等于这个数字；这也是顺理成章的。
- 在上面的例子中，中间的 2 个值是 70 和 71，所以中位数是 ((70 + 71) / 2) = 70.5。
4 计算下四分位数。 这个值，称为 Q1，低于 25% 的数据集值。换句话说，它是值的一半到中位数。如果中位数之前的数据集中有偶数个值，则需要求两个均值的算术平均值才能计算Q1（这与计算中位数类似）。
- 在我们的示例中，6 个值位于中位数之后，6 个值位于中位数之前。这意味着为了计算下四分位数，我们需要找到位于中位数之前的六个值的两个平均值的算术平均值。这里的平均值是 70 和 70。因此，Q1 = ((70 + 70) / 2) = 70。
5 计算上四分位数。 该值，称为 Q3，高于该值的数据集值的 25%。 Q3的计算过程与Q1的计算过程类似，只是这里考虑的是中位数后的值。
- 在上面的例子中，中位数后六个的两个平均值是 71 和 72。所以 Q3 = ((71 + 72) / 2) = 71.5。
6 计算四分位距。 计算出 Q1 和 Q3 后，需要找出这些值之间的距离。为此，请从 Q3 中减去 Q1。四分位距的值对于确定不是异常值的值的边界非常重要。
- 在我们的示例中，Q1 = 70 和 Q3 = 71.5。四分位距为 71.5 - 70 = 1.5。
- 请注意，这也适用于负 Q1 和 Q3 值。例如，如果 Q1 = -70，则四分位距为 71.5 - (-70) = 141.5。
7 找到数据集中值的“内边界”。 异常值是通过分析数值来确定的——它们是否落在所谓的“内部边界”和“外部边界”之内。 “内部边界”之外的值被归类为“次要异常值”，而“外部边界”之外的值被归类为“显着异常值”。要找到内部边界，您需要将四分位距乘以 1.5；结果必须添加到 Q3 并从 Q1 中减去。找到的两个数字是数据集的内部边界。
- 在我们的示例中，四分位距为 (71.5 - 70) = 1.5。进一步：1.5 * 1.5 = 2.25。必须将此数字添加到 Q3 并从 Q1 中减去才能找到内部边界：
  - 71,5 + 2,25 = 73,75
  - 70 - 2,25 = 67,75
  - 因此，内部边界是 67.75 和 73.75。
- 在我们的示例中，只有炉温 - 300 度 - 位于这些限制之外，可以被视为微不足道的排放。但不要急于下结论——我们必须确定这个温度是否是一个重要的异常值。
8 找到数据集的“外边界”。 这与处理内部边界的方式相同，只是四分位距乘以 3 而不是 1.5。结果必须与 Q3 相加并从 Q1 中减去。找到的两个数字是数据集的外边界。
- 在我们的示例中，将四分位距乘以 3：1.5 * 3 = 4.5。计算外边界：
  - 71,5 + 4,5 = 76
  - 70 - 4,5 = 65,5
  - 所以外边界是 65.5 和 76。
- 任何超出外部边界的值都被视为重大排放。在我们的示例中，300 度的炉温被认为是严重的井喷。
9 使用定性估计来确定是否应从数据集中排除异常值。 上述方法允许您确定某些值是否为异常值（次要或显着）。但请不要搞错——被归类为异常值的值只是异常的“候选”，这意味着您不必排除它。产生异常值的原因是影响排除异常值决策的主要因素。通常，由于错误（测量、记录等）而出现的异常值被排除在外。另一方面，与错误无关但与新信息或趋势相关的异常值通常留在数据集中。
- 评估异常值对数据集中位数的影响（无论它们是否扭曲）同样重要。当您从数据集的中位数得出结论时，这一点尤其重要。
- 在我们的示例中，烤箱极不可能加热到 300 度的温度（除非我们考虑到自然异常）。因此，可以断定（具有高度确定性）这样的温度是需要从数据集中排除的测量误差。此外，如果不排除异常值，数据集的中位数将为 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 度，但如果排除异常值，中位数将为 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 度。
  - 异常值通常是人为错误的结果，因此需要从数据集中排除异常值。
10 了解留在数据集中的（有时）异常值的重要性。 一些异常值应该从数据集中排除，因为它们是由于错误和技术问题造成的；其他异常值应该留在数据集中。例如，如果异常值不是错误的结果和/或提供了对被测现象的新理解，则应将其留在数据集中。科学实验对异常值特别敏感——如果错误地消除了异常值，你可能会错过一些新的趋势或发现。
- 例如，我们正在开发一种新药来增加渔业鱼类的体型。我们将使用旧数据集（{71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}），但这次每个值将代表鱼的重量（以克为单位）摄入实验药物后。换句话说，第一种药物导致鱼重增加至 71 克，第二种药物增加至 70 克，以此类推。在这种情况下，300 是一个重要的异常值，但我们不能排除它；如果我们假设没有测量误差，那么这样的异常值在实验中是一个重大的成功。这种将鱼的体重增加到 300 克的药物，效果比其他药物要好得多；因此 300 是数据集中最重要的值。