统计学中的均值，方差，偏差，标准差，期望，正态分布等概率相关的词汇

我们常常会提及到统计学中的均值，方差，偏差，标准差，期望，正态分布等概率相关的词汇。

例如：有{x1,x2,……,xn} n个样本

平均值公式

均值描述的是所有样本集合的中间点，它能告诉我们的信息是有限的，比较少的；一般机器学习中训练模型，或者构造损失函数用不到平均值。

方差公式

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。

方差一般是用来度量随机变量和其数学期望（即均值）之间的偏离程度–离散程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量源数据和**期望值（可近似看作平均值）**相差的度量值。

标准差公式

标准差是方差的开方，描述的是样本集合的各个样本点到均值的距离之平均；同时，也可以反映一个数据集的离散程度

网上可能可能有很多说法是：将期望看错平均值(mean)；其实，平均值和期望可以近似等于，但两者还是有区别的。

例如：已知样本{x1,x2,……,xn}，其中x1的发生概率为p1,……，xn的发生概率为pn;

则期望E(x)= x1 * p1 + ……+ xn * pn；

平均值上面已经解释过；

总结：

1、期望是加权平均和

2、平均值是算术平均值

偏差是指预测结果与真实值之间的差异，偏差是模型无法准确表达数据关系导致

偏差公式

方差：是不同的训练数据集训练出的模型输出值之间的差异（描述是离散程度）

偏差：期望预测与真实标记的误差称为偏差。（描述的是与模型输出值之间的距离）

如下图：

方差越大，离散程度越大

偏差越大，数据离正确域距离越大

一图胜千言

正态分布又称"常态分布"、"高斯分布"；一般如下图的基本上都是正态分布，中间高两边低的是正态分布。

正态分布表明：数据都集中在中间，都靠近平均值，举个栗子：

正态分布例图

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

若随机变量服从一个位置参数为、尺度参数为的概率分布，且其概率密度函数为

正态分布只依赖于数据集的两个特征：样本的均值和方差。