计算离群值

作者: Charles Brown
创建日期: 8 二月 2021
更新日期: 1 七月 2024
Anonim
SPSS多变量的离群值多变量异常值 查找与删除
视频: SPSS多变量的离群值多变量异常值 查找与删除

内容

一种 离群值 或者 离群值 统计数据中的数据点与样本中的其他数据点有显着差异。异常值通常会向统计人员指出测量中的差异或错误,然后他们可以从数据集中删除异常值。如果他们实际上选择从数据集中删除异常值,则可能会导致研究得出的结论发生重大变化。这就是为什么要正确解释统计数据时计算和确定离群值很重要的原因。

  1. 了解如何发现可能的异常值。 在确定是否要从特定数据集中删除异常值之前,我们当然必须首先确定数据集中可能存在的异常值。通常,离群点是与形成集合中其他值的趋势显着偏离的数据点-换句话说,它们 射出 其他值。通常在表中(尤其是在图形中)很容易识别这一点。如果以可视方式绘制数据集,则异常值将与其他值“相距较远”。例如,如果数据集中的大多数点形成一条直线,则离群值将不符合该直线。
    • 让我们看一下显示房间中12个不同物体的温度的数据集。如果11个对象的温度最多在21°C附近波动几度,而一个对象(烤箱)的温度为150°C,则一眼便可以看出烤箱可能是异常值。
  2. 从最低到最高对所有数据点进行排序。 计算离群值的第一步是找到数据集的中值(或中间值)。如果集合中的值从最低到最高依次排列,则此任务将变得更加容易。因此,在继续之前,像这样对数据集中的值进行排序。
    • 让我们继续上面的示例。这是我们的数据集,显示了房间中不同物体的温度,以华氏度为单位:{71、70、73、70、70、69、70、72、71、300、71、69}。如果我们将集合中的值从最低到最高进行排序,这将成为我们的新集合:{69,69,70,70,70,70,71,71,71,72,73,300}。
  3. 计算数据集的中位数。 数据集的中位数是数据点,其中一半数据位于其上方,一半数据位于其下方-实际上,它是数据集的“中心”。如果数据集包含奇数个点,则中位数很容易找到-中位数是上面的点与下面的点一样多的点。如果有偶数个点,因为没有一个中心,则必须取两个中心点的平均值才能找到中值。在计算离群值时,中位数通常由变量Q2引用-因为它位于Q1和Q3(第一和第三四分位数)之间。我们稍后将确定这些变量。
    • 不要被偶数个点的数据集所迷惑-两个中间点的平均值通常是一个不在数据集本身中的数字-可以。但是,如果两个中间点相同,则平均值当然也将是该数字-也是 好的.
    • 在我们的示例中,我们有12分。中间的两个项分别是点6和7-70和71,因此我们数据集的中位数是这两个点的平均值:((70 + 71)/ 2)=70,5.
  4. 计算第一个四分位数。 我们用变量Q1表示的这一点是低于25%(或四分之一)观测值的数据点。换句话说,这是数据集中所有点的中心 以下 中位数。如果在中位数以下有偶数个值,则必须再次取两个中间值的平均值才能找到Q1,就像您自己确定中位数一样。
    • 在我们的示例中,中位数以上六个点,中位数以下六个点。因此,要找到第一个四分位数,我们必须取最后六个点中两个中间点的平均值。倒数第6点的第3点和第4点均为70,因此它们的平均值为((70 + 70)/ 2)=70。因此,我们第一季度的价值是70。
  5. 计算第三个四分位数。 我们用变量Q3表示的这一点是数据点,高于25%的数据位于该数据点上。查找Q3与查找Q1几乎相同,只是在这种情况下我们要注意要点 以上 中位数。
    • 继续上面的示例,我们看到中位数以上六个点中的两个中间点分别是71和72。这两个点的平均值是((71 + 72)/ 2)=71,5。因此,我们第三季度的价值是71.5。
  6. 找到四分位数范围。 现在我们确定了Q1和Q3,我们必须计算这两个变量之间的距离。您可以通过从Q3减去Q1来找到Q1和Q3之间的距离。四分位间距所获得的值对于确定数据集中非偏离点的边界至关重要。
    • 在我们的示例中,Q1和Q3的值分别为70和71.5。为了找到四分位数范围,我们计算Q3-Q1:71.5-70 =1,5.
    • 即使Q1,Q3或两个数字均为负,此方法也有效。例如,如果我们的Q1值为-70,则四分位数范围应为71.5-(-70)= 141.5,这是正确的。
  7. 找到数据集的“内部限制”。 您可以通过确定异常值是否落在多个数值范围内来识别异常值。所谓的“内部限制”和“外部限制”。超出数据集内部限制的点被归类为一个 温和的异常值,并且超出外部界限的点被分类为一个 极端离群值。要查找数据集的内部边界,请先将四分位数范围乘以1.5。将结果加到Q3,然后从Q1中减去。这两个结果是数据集的内部限制。
    • 在我们的示例中,四分位间距为(71.5-70)或1.5。乘以1.5得到2.25。我们将此数字加到Q3上,然后从Q1减去它,以找到内部边界,如下所示:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • 所以内部边界是 67.75和73.75.
    • 在我们的数据集中,只有烤箱温度-华氏300度-不在此范围内。因此,这可能是一个轻微的异常值。但是,我们尚未确定该温度是否是极端异常值,因此我们暂时不要得出结论。
  8. 找到数据集的“外部限制”。 使用内部限制的方式进行此操作,唯一的不同是将四分位数距离乘以3而不是1.5。然后,将结果与Q3相加,然后从Q1中减去以得出外部极限值。
    • 在我们的示例中,我们将四分位数距离乘以3得到(1.5 * 3)或4.5。现在,我们可以以与内部限制相同的方式找到外部限制:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • 因此,外部限制是 65.5和76.
    • 位于外部边界之外的数据点被认为是极端离群值。在我们的示例中,烤箱温度为华氏300度,远远超出了外部限制。所以烤箱温度是 当然 极端的异常值。
  9. 使用定性评估来确定是否应“剔除”异常值。 使用上述方法,您可以确定某些点是轻微的异常值,极端的异常值还是根本没有异常值。但是请不要误会-将一个点识别为离群点只会使它成为一个离群点 候选人 从数据集中删除,而不是立即删除一个点 必须 变成。这 原因 为什么离群值与集合中其他点不同的原因对于确定是否应删除离群值至关重要。通常,消除由某些错误(例如,测量,记录或实验设计中的错误)引起的异常值。相反,不是由错误引起的并且揭示新的,不可预测的信息或趋势的异常值通常会变为 不是 已删除。
    • 要考虑的另一个标准是,异常值是否以偏斜或误导的方式影响数据集的均值。如果您打算根据数据集的平均值得出结论,则这一点尤其重要。
    • 让我们来判断我们的例子。自从 最高 由于某些不可预见的自然力,炉子不太可能达到300°F的温度,在我们的示例中,我们几乎可以100%地确定炉子意外开启,从而导致异常的高温读数。此外,如果我们不删除异常值,则数据集的平均值为(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/ 12 = 89.67° F,而卑鄙 没有 离群值变为(69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/ 11 = 70.55°F.
      • 由于离群值是由人为错误引起的,并且由于说平均室温接近32°C是不正确的,因此我们必须选择使用离群值。 去掉.
  10. 了解(有时)保留异常值的重要性。 虽然应从数据集中删除某些异常值,因为它们是错误的结果,或者是因为它们以误导性的方式歪曲结果,但应保留其他异常值。例如,如果已正确获得异常值(因此不是错误的结果)和/或如果异常值提供了对要测量的现象的新洞察力,则不应立即将其删除。在处理异常值时,科学实验尤其敏感-错误地删除异常值可能意味着丢弃有关新趋势或发现的重要信息。
    • 例如,假设我们正在设计一种新药,以使养鱼场中的鱼变大。让我们使用旧数据集({71,70,73,70,70,69,70,72,71,300,71,69}),不同之处在于每个点现在代表一条鱼的质量(以克为单位) ),从出生开始就用另一种实验药物进行治疗。换句话说,第一种药物给一条鱼的质量为71克,第二种药物给另一条鱼的质量为70克,依此类推。在这种情况下,300 仍然 一个巨大的离群值,但我们现在不应该删除它。因为,如果我们假设异常值不是错误的结果,那么它代表了我们实验的巨大成功。产生300克鱼的药物比其他任何药物都更有效,就是这样 最多 我们集合中的重要数据点,而不是 至少 重要数据点。

尖端

  • 如果发现异常值,请先解释它们,然后再将其从数据集中删除。它们可以指示测量误差或分布偏差。

生活必需品

  • 计算器