高等数学


1. 条件概率及链式法则

1.1 条件概率

条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。若只有两个事件A,B,那么,x=x 事件发生时 y=y 事件发生的概率: P(y=y|x=x) = P(x=x,y=y) / P(x=x)。

1.2 条件概率的链式法则

也称为条件概率的乘法法则,P(a,b,c)=P(a|b,c) P(b,c) = P(a|b,c) P(b|c) P(c)。

1.3 推广到一般情况

P(x(1),x(2),⋯,x(n))=P(x(n)|x(n−1),⋯,x(1))P(x(1),⋯,x(n−1))=P(x(n)|x(n−1),⋯,x(1))P(x(n−1)|x(n−2),⋯,x(1))P(x(1),⋯,x(n−2))=P(x(n)|x(n−1),⋯,x(1))P(x(n−1)|x(n−2),⋯,x(1))⋯P(x(2)|x(1))P(x(1))=P(x(1))∏2nP(x(i))|x(1)⋯x(i−1))

条件概率的链式法则可以如下理解:
以 P(x(1),x(2),⋯,x(n))P(x(1),x(2),⋯,x(n)) 为例,可以看作 P(x(1))P(x(1)) 发生后,P(x(2)|x(1))P(x(1))P(x(2)|x(1))P(x(1)) 是x(1),x(2)x(1),x(2) 同时发生的概率,P(x(3)|x(1),x(2))P(x(2)|x(1))P(x(1))P(x(3)|x(1),x(2))P(x(2)|x(1))P(x(1)) 是 x(1),x(2),x(3)x(1),x(2),x(3) 同时发生的概率,依次类推下去,便可以得到条件概率的链式法则公式。

原文链接:https://blog.csdn.net/NXHYD/article/details/104772086

2. 极大似然估计

3. Softmax函数/归一化指数函数

注意概率函数中分子里的W的位置应该在e的指数上

image-20210730075235880

4. 平均数

4.1 调和平均

  • 调和平均数(harmonic mean)又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。
  • 分为普通调和平均数加权调和平均数
  • 详见百度百科-调和平均数

4.2 算数平均

  • avge = ( a+b ) / 2

4.3 几何平均

  • avge = ( a+b )^(1/2) (根号下 a+b)

5 闭式解与数值解

5.1 闭式解/解析解

  • 就是给出解的具体函数形式,从解的表达式中就可以算出任何对应值

image-20210509134130816

5.2 数值解

  • 就是用数值方法求出解,给出一系列对应的自变量和解。

6. 神经网络中的激活函数

6.1 双曲正切函数tanh

  • 详见博客:神经网络中的激活函数-tanh

  • 特点

    • 函数:y=tanh x;
    • 定义域:R
    • 值域:(-1,1)。
    • y=tanh x是一个奇函数,其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线,其图像被限制在两水平渐近线y=1和y=-1之间。
  • 图像

img

6.2 maxout 激活函数

image-20210615022611321

Maxout 激活函数特点:maxout激活函数并不是一个固定的函数,不像Sigmod、Relu、Tanh等函数,是一个固定的函数方程.它是一个可学习的激活函数,因为我们 W 参数是学习变化的。它是一个分段线性函数:

优点:Maxout的拟合能力非常强,可以拟合任意的凸函数。Maxout具有ReLU的所有优点,线性、不饱和性。同时没有ReLU的一些缺点。如:神经元的死亡。

缺点:从上面的激活函数公式中可以看出,每个神经元中有两组(w,b)参数,那么参数量就增加了一倍,这就导致了整体参数的数量激增。

6.3 ReLU 整流线性单位函数

整流线性单位函数(Rectified Linear Unit, ReLU),又称修正线性单元, 是一种人工神经网络中常用的激励函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。

img

整流线性单位函数

6.4 ELU

image-20210626024139815

  • 融合了sigmoid和ReLU,左侧具有软饱和性,右侧无饱和性。
  • 右侧线性部分使得ELU能够缓解梯度消失,而左侧软饱能够让ELU对输入变化或噪声更鲁棒。
  • ELU的输出均值接近于零,所以收敛速度更快。
  • 在 ImageNet上,不加 Batch Normalization 30 层以上的 ReLU 网络会无法收敛,PReLU网络在MSRA的Fan-in (caffe )初始化下会发散,而 ELU 网络在Fan-in/Fan-out下都能收敛。

7. Bootstrapping自助抽样法

统计学中,自助法(Bootstrap Method,Bootstrapping,或自助抽样法拔靴法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自能以正态分布来描述的总体,其抽样分布为正态分布;但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。

最常用的一种是.632自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样d次,产生d个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/d,因此未被选中的概率就是(1-1/d),这样一个样本在训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)^d。当d趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

8. 马尔可夫模型

TODO

当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。马尔可夫假设(Markov assumption)则是用来假设描述一个模型具有马尔可夫性质,比如隐马尔可夫模型。


文章作者: fdChen
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 fdChen !
评论
  目录
加载中...