统计学中的均值,方差,偏差,标准差,期望,正态分布等概率相关的词汇
🪁

统计学中的均值,方差,偏差,标准差,期望,正态分布等概率相关的词汇

我们常常会提及到统计学中的均值,方差,偏差,标准差,期望,正态分布等概率相关的词汇。
例如:有{x1,x2,......,xn} n个样本
  • 平均值:
notion image
平均值公式
均值描述的是所有样本集合的中间点,它能告诉我们的信息是有限的,比较少的;一般机器学习中训练模型,或者构造损失函数用不到平均值。
  • 方差(variance):
notion image
方差公式
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。
方差一般是用来度量随机变量和其数学期望(即均值)之间的偏离程度--离散程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量源数据和期望值(可近似看作平均值)相差的度量值。
  • 标准差:
notion image
标准差公式
标准差是方差的开方,描述的是样本集合的各个样本点到均值的距离之平均;同时,也可以反映一个数据集的离散程度
  • 期望
网上可能可能有很多说法是:将期望看错平均值(mean);其实,平均值和期望可以近似等于,但两者还是有区别的。
例如:已知样本{x1,x2,......,xn},其中x1的发生概率为p1,......,xn的发生概率为pn;
则期望E(x)= x1 * p1 + ......+ xn * pn;
平均值上面已经解释过;
总结:
1、期望是加权平均和
2、平均值是算术平均值
  • 偏差(bias)
偏差是指预测结果与真实值之间的差异,偏差是模型无法准确表达数据关系导致
notion image
偏差公式
  • 方差(variance)和偏差(bias)的区别
方差:是不同的训练数据集训练出的模型输出值之间的差异(描述是离散程度
偏差:期望预测与真实标记的误差称为偏差。(描述的是与模型输出值之间的距离
如下图:
方差越大,离散程度越大
偏差越大,数据离正确域距离越大
notion image
一图胜千言
  • 正态分布
正态分布又称"常态分布"、"高斯分布";一般如下图的基本上都是正态分布,中间高两边低的是正态分布。
正态分布表明:数据都集中在中间,都靠近平均值,举个栗子:
  • 世界上大部分都是普通人(堆在中间);百分之10的是精英,还有百分之10是"智障"人群(分布在两端)
  • 男生的身高,大部分男生是170(堆在中间);少部分人特别高,少部分人特别矮(分布在两端)
  • 等等.......
notion image
正态分布例图
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
若随机变量 服从一个位置参数为 、尺度参数为 的概率分布,且其概率密度函数为
notion image
notion image
正态分布只依赖于数据集的两个特征:样本的均值和方差。
  • 均值——样本所有取值的平均
  • 方差——该指标衡量了样本总体偏离均值的程度