计算方差的方法

作者: Robert Simon
创建日期: 21 六月 2021
更新日期: 1 七月 2024
Anonim
均值、中位数、方差和标准差
视频: 均值、中位数、方差和标准差

内容

方差度量数据集的离散度。在构建统计模型时非常有用:低方差可能表明您在描述随机误差或噪声,而不是数据中的基础关系。在本文中,wikiHow教您如何计算方差。

脚步

方法1之2:计算样本的方差

  1. 编写样本数据集。 在大多数情况下,统计人员只了解样本或他们正在研究的人口子集的信息。例如,统计人员可能没有找到“数千辆汽车的随机抽样”的成本,而是分析了“德国每辆汽车的成本”。统计人员可以使用此样本来估算德国的汽车成本。但是,很可能与实际数字不完全匹配。
    • 例如: 在分析每天在一家咖啡店出售的松饼的数量时,您随机抽取了六天的样本并获得以下结果: 38、37、36、28、18、14、12、11、10.7、9.9。这是一个示例,而不是总体,因为您没有每天营业的数据。
    • 如果 每一个 主机中的数据点,请转到下面的方法。

  2. 写下样本方差公式。 数据集的方差表示数据点的分散程度。方差越接近零,数据点的分组就越紧密。使用样本数据集时,请使用以下公式计算方差:
    • = /(n-1)
    • 是方差。方差始终以平方单位计算。
    • 代表数据集中的值。
    • ∑,表示“和”,它告诉您为每个值计算以下参数,然后将它们加在一起。
    • x̅是样本的平均值。
    • n是数据点的数量。

  3. 计算样本的平均值. x或“ x水平”符号用于表示样品的平均值。进行任何平均计算:将所有数据点相加并除以点数。
    • 例如: 首先,将您的数据点相加:17 + 15 + 23 + 7 + 9 + 13 = 84
      接下来,将结果除以数据点的数量,在这种情况下为六:84÷6 = 14。
      样本平均值=x̅= 14.
    • 您可以将均值视为数据的“中心点”。如果数据以平均值为中心,则方差低。如果它们远离均值分散,则方差很高。

  4. 从每个数据点减去平均值。 现在是计算时间-x̅,数据集中每个点的位置。每个结果都将指示与每个对应点的平均值的偏差,或者简单地说,就是从该点到平均值的距离。
    • 例如:
      -x̅= 17-14 = 3
      -x̅= 15-14 = 1
      -x̅= 23-14 = 9
      -x̅= 7-14 = -7
      -x̅= 9-14 = -5
      -x̅= 13-14 = -1
    • 检查结果很容易,因为结果必须加到零,这是因为以平均值表示,结果为负(从平均值到小数的距离)。完全消除了正面结果(从均值到较大数的距离)。
  5. 平方所有结果。 如上所述,当前偏差列表(-x̅)的总和为零,这意味着“平均偏差”也将始终为零,并且不能说出数据的分散性。为了解决这个问题,我们找到每个偏差的平方。由于这些,所有都是正数,负值和正值不再相互抵消,并且总和为零。
    • 例如:
      (- X)
      - X)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • 现在,样本中的每个数据点都有(-x̅)。
  6. 查找平方值的总和。 现在是时候计算公式的整个分子:∑。大循环∑要求您为每个值添加以下元素值。您已经为样本中的每个值计算了(-x̅),因此您要做的就是将结果加在一起。
    • 例如: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. 除以n-1,其中n是数据点的数量。 很久以前,在计算样本方差时,统计学家仅除以n。该除法将为您提供偏差平方的平均值,该平均值与该样本的方差完全匹配。但是,请记住,样本仅是对较大人群的估计。如果您再取一个随机样本并进行相同的计算,则会得到不同的结果。事实证明,除以n -1而不是n可以更好地估计更大的总体方差-这是您真正关心的。这种校正非常普遍,以至于现在已成为样本方差的公认定义。
    • 例如: 样本中有六个数据点,所以n = 6。
      样本方差= 33,2
  8. 了解方差和标准偏差。 注意,由于公式中有幂,所以方差是以原始数据单位的平方来衡量的。这在视觉上令人困惑。相反,通常标准偏差非常有用。但是浪费任何精力是没有意义的,因为标准偏差是由方差的平方根决定的。这就是为什么样本方差用术语表示,而样本的标准偏差是这样的原因。
    • 例如,上述样本的标准偏差= s =√33.2= 5.76。
    广告

方法2之2:计算总体方差

  1. 从主数据集开始。 术语“人口”用于指所有相关观察。例如,如果您正在研究河内居民的年龄,则总人口将包括居住在河内的所有个人的年龄。通常,您会为像这样的大型数据集创建电子表格,但这是一个较小的示例数据集:
    • 例如: 在一个水族馆的房间里,正好有六个水族馆。这六个水箱包含以下数量的鱼:





  2. 写下总体差异的公式。 由于总体包含了我们需要的所有数据,因此该公式为我们提供了总体的确切方差。为了将其与样本方差(仅是估计值)区分开来,统计学家使用其他变量:
    • σ = /ñ
    • σ=样本方差。这是通常平方的香肠。方差以平方单位度量。
    • 表示数据集中的元素。
    • 针对每个值计算∑中的元素,然后将其相加。
    • μ是整体平均值。
    • n是总体中数据点的数量。
  3. 找到人口的平均值。 当分析总体时,符号μ(“μ”)代表算术平均值。为了找到平均值,将所有数据点相加,然后除以点数。
    • 您可以将均值视为“平均值”,但要小心,因为该词具有许多数学定义。
    • 例如: 平均值=μ= = 10,5
  4. 从每个数据点减去平均值。 接近均值的数据点的差异接近零。对所有数据点重复减法问题,您可能会开始感到数据分散。
    • 例如:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. 平方每个标志。 在这一点上,从上一步获得的一些结果将是负面的,而某些则将是正面的。如果在同构线上可视化数据,则这两个项目代表均值左侧和右侧的数字。这在计算方差方面没有任何用处,因为这两组会相互抵消。取而代之的是将它们平方成正数,以便它们都是积极的。
    • 例如:
      (-μ)的每个值 一世 从1到6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. 查找结果的平均值。 现在,每个数据点都有一个值,该值与该数据点离平均值的距离(不直接相关)有关。通过将它们加在一起并除以您拥有的值数来求平均值。
    • 例如:
      总方差= 24,25
  7. 联系食谱。 如果您不确定这是否适合方法开始时概述的公式,请用手写下整个问题,并且不要缩写:
    • 在找到与均值和平方的差之后,您将得到(-μ),(-μ)等,直到(-μ),这是最后一个数据点。在数据集中。
    • 要找到这些值的平均值,请将它们相加并除以n:((-μ)+(-μ)+ ... +(-μ))/ n
    • 用S形符号重写分子后,您具有/ñ,公式方差。
    广告

忠告

  • 由于方差难以解释,因此通常将此值计算为寻找标准偏差的起点。
  • 在分母中使用“ n-1”代替“ n”是一种称为贝塞尔校正的技术。样本仅是一个完整总体的估计,样本的平均值具有一定偏差以匹配该估计。该校正消除了上述偏差。它涉及以下事实:一旦枚举了n-1个数据点,最后一个点 ñ 是一个常数,因为在方差公式中仅使用某些值来计算样本的平均值(x̅)。