如何计算排放量

作者: Janice Evans
创建日期: 23 七月 2021
更新日期: 1 七月 2024
Anonim
《央视财经V讲堂》今天 你的碳排放量超标了吗?20190706 | CCTV财经
视频: 《央视财经V讲堂》今天 你的碳排放量超标了吗?20190706 | CCTV财经

内容

在统计学中,离群值是与收集到的数据集中的其他值有很大差异的值。异常值可以表示数据分布的异常或测量错误,因此通常会从数据集中排除异常值。通过从数据集中消除异常值,您可以得出意想不到的或更准确的结论。因此,有必要能够计算和估计异常值,以确保正确理解统计数据。

脚步

  1. 1 学会识别潜在的异常值。 在从数据集中排除异常值之前,应识别潜在的异常值。离群值是与数据集中的大多数值有很大不同的值;换句话说,离群值在大多数值的趋势之外。这在值表或(尤其是)图表中很容易找到。如果绘制数据集中的值,离群值将远离大多数其他值。例如,如果大部分值落在一条直线上,那么离群值就位于这条直线的两侧。
    • 例如,考虑一个表示房间内 12 个不同物体温度的数据集。如果 11 个物体大约是 70 度,而第 12 个物体(可能是一个熔炉)是 300 度,那么快速查看数值就可以表明该熔炉很可能是井喷。
  2. 2 按升序对数据进行排序。 确定异常值的第一步是计算数据集的中位数。如果数据集中的值按升序(从最小到最大)排列,则此任务将大大简化。
    • 继续上面的例子,考虑以下表示多个物体温度的数据集:{71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}。该集合应按如下顺序排序:{69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}。
  3. 3 计算数据集的中位数。 数据集的中位数是数据集中间的值。如果数据集包含奇数个值,则中位数是数据集中前后有相同数量值的值。但是如果数据集包含偶数个值,那么您需要找到这两个平均值的算术平均值。请注意,在计算异常值时,中位数通常称为 Q2,因为它位于 Q1 和 Q3 之间,下四分位数和上四分位数,我们将在后面定义。
    • 不要害怕使用具有偶数个值的数据集——两个均值的算术平均值将是一个不在数据集中的数字;这是正常的。但是如果两个平均值是同一个数字,那么算术平均值就等于这个数字;这也是顺理成章的。
    • 在上面的例子中,中间的 2 个值是 70 和 71,所以中位数是 ((70 + 71) / 2) = 70.5。
  4. 4 计算下四分位数。 这个值,称为 Q1,低于 25% 的数据集值。换句话说,它是值的一半到中位数。如果中位数之前的数据集中有偶数个值,则需要求两个均值的算术平均值才能计算Q1(这与计算中位数类似)。
    • 在我们的示例中,6 个值位于中位数之后,6 个值位于中位数之前。这意味着为了计算下四分位数,我们需要找到位于中位数之前的六个值的两个平均值的算术平均值。这里的平均值是 70 和 70。因此,Q1 = ((70 + 70) / 2) = 70。
  5. 5 计算上四分位数。 该值,称为 Q3,高于该值的数据集值的 25%。 Q3的计算过程与Q1的计算过程类似,只是这里考虑的是中位数后的值。
    • 在上面的例子中,中位数后六个的两个平均值是 71 和 72。所以 Q3 = ((71 + 72) / 2) = 71.5。
  6. 6 计算四分位距。 计算出 Q1 和 Q3 后,需要找出这些值之间的距离。为此,请从 Q3 中减去 Q1。四分位距的值对于确定不是异常值的值的边界非常重要。
    • 在我们的示例中,Q1 = 70 和 Q3 = 71.5。四分位距为 71.5 - 70 = 1.5。
    • 请注意,这也适用于负 Q1 和 Q3 值。例如,如果 Q1 = -70,则四分位距为 71.5 - (-70) = 141.5。
  7. 7 找到数据集中值的“内边界”。 异常值是通过分析数值来确定的——它们是否落在所谓的“内部边界”和“外部边界”之内。 “内部边界”之外的值被归类为“次要异常值”,而“外部边界”之外的值被归类为“显着异常值”。要找到内部边界,您需要将四分位距乘以 1.5;结果必须添加到 Q3 并从 Q1 中减去。找到的两个数字是数据集的内部边界。
    • 在我们的示例中,四分位距为 (71.5 - 70) = 1.5。进一步:1.5 * 1.5 = 2.25。必须将此数字添加到 Q3 并从 Q1 中减去才能找到内部边界:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • 因此,内部边界是 67.75 和 73.75。
    • 在我们的示例中,只有炉温 - 300 度 - 位于这些限制之外,可以被视为微不足道的排放。但不要急于下结论——我们必须确定这个温度是否是一个重要的异常值。
  8. 8 找到数据集的“外边界”。 这与处理内部边界的方式相同,只是四分位距乘以 3 而不是 1.5。结果必须与 Q3 相加并从 Q1 中减去。找到的两个数字是数据集的外边界。
    • 在我们的示例中,将四分位距乘以 3:1.5 * 3 = 4.5。计算外边界:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • 所以外边界是 65.5 和 76。
    • 任何超出外部边界的值都被视为重大排放。在我们的示例中,300 度的炉温被认为是严重的井喷。
  9. 9 使用定性估计来确定是否应从数据集中排除异常值。 上述方法允许您确定某些值是否为异常值(次要或显着)。但请不要搞错——被归类为异常值的值只是异常的“候选”,这意味着您不必排除它。产生异常值的原因是影响排除异常值决策的主要因素。通常,由于错误(测量、记录等)而出现的异常值被排除在外。另一方面,与错误无关但与新信息或趋势相关的异常值通常留在数据集中。
    • 评估异常值对数据集中位数的影响(无论它们是否扭曲)同样重要。当您从数据集的中位数得出结论时,这一点尤其重要。
    • 在我们的示例中,烤箱极不可能加热到 300 度的温度(除非我们考虑到自然异常)。因此,可以断定(具有高度确定性)这样的温度是需要从数据集中排除的测量误差。此外,如果不排除异常值,数据集的中位数将为 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 度,但如果排除异常值,中位数将为 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 度。
      • 异常值通常是人为错误的结果,因此需要从数据集中排除异常值。
  10. 10 了解留在数据集中的(有时)异常值的重要性。 一些异常值应该从数据集中排除,因为它们是由于错误和技术问题造成的;其他异常值应该留在数据集中。例如,如果异常值不是错误的结果和/或提供了对被测现象的新理解,则应将其留在数据集中。科学实验对异常值特别敏感——如果错误地消除了异常值,你可能会错过一些新的趋势或发现。
    • 例如,我们正在开发一种新药来增加渔业鱼类的体型。我们将使用旧数据集({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}),但这次每个值将代表鱼的重量(以克为单位)摄入实验药物后。换句话说,第一种药物导致鱼重增加至 71 克,第二种药物增加至 70 克,以此类推。在这种情况下,300 是一个重要的异常值,但我们不能排除它;如果我们假设没有测量误差,那么这样的异常值在实验中是一个重大的成功。这种将鱼的体重增加到 300 克的药物,效果比其他药物要好得多;因此 300 是数据集中最重要的值。

提示

  • 当发现异常值时,在将它们从数据集中排除之前尝试解释它们的存在。它们可以指示测量错误或分布异常。

你需要什么

  • 计算器