激活函数有哪些？

1 年前 31 浏览次数

神经网络常用七种激活函数：Sigmoid、tanh、ReLU及其变体（Leaky ReLU、参数化ReLU、随机化ReLU）和ELU。它们引入非线性，使网络能够学习复杂模式。

意见反馈 0 喜欢次数

您可能想问？更多

神经网络的强大之处在于其能够学习复杂、非线性的模式。而这能力的基石，正是激活函数。它们赋予神经元“选择性”的响应能力，将线性变换转换为非线性变换，从而让神经网络具备逼近任意函数的能力。神经网络中常用的激活函数有很多种，但各有优劣，选择合适的激活函数对于模型的性能至关重要。本文将介绍七种常用的激活函数，并简要分析它们的特性。

1. Sigmoid 函数: Sigmoid 函数的输出值域在 (0, 1) 之间，常被解释为概率。其公式为：σ(x) = 1 / (1 + exp(-x))。 Sigmoid 函数的优点是输出值易于理解，缺点是容易出现梯度消失问题。当输入值非常大或非常小时，其导数接近于零，导致反向传播过程中梯度难以有效传递，从而影响网络的训练效率。

2. tanh 函数: tanh 函数（双曲正切函数）的输出值域在 (-1, 1) 之间。其公式为：tanh(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))。与 Sigmoid 函数相比，tanh 函数的输出均值为 0，这在某些情况下可以加快训练速度。但它同样存在梯度消失的问题。

3. ReLU 函数 (Rectified Linear Unit): ReLU 函数是近年来非常流行的激活函数。其公式为：ReLU(x) = max(0, x)。当 x > 0 时，输出为 x 本身；当 x ≤ 0 时，输出为 0。ReLU 函数计算速度快，且在正区间内不存在梯度消失问题。然而，ReLU 函数存在“死亡神经元”的问题：当输入为负值时，神经元的输出为 0，其导数也为 0，导致该神经元在后续训练中不再被激活。

4. Leaky ReLU 函数: Leaky ReLU 函数是为了解决 ReLU 函数“死亡神经元”问题而提出的改进版本。其公式为：Leaky ReLU(x) = max(αx, x)，其中 α 是一个小的正数，通常取值在 0.01 到 0.05 之间。当 x ≤ 0 时，输出为 αx，避免了导数为零的情况。

5. 参数化 ReLU 函数 (Parametric ReLU): 参数化 ReLU 函数进一步改进，将 α 作为可学习的参数，由网络自身学习最优的 α 值。这使得网络能够更好地适应不同的数据分布。

6. 随机化 ReLU 函数 (Randomized ReLU): 随机化 ReLU 函数在每次迭代中随机选择 α 的值，进一步提高了模型的鲁棒性，减少了对 α 值选择的敏感性。

7. ELU 函数 (Exponential Linear Unit): ELU 函数在负区间使用了指数函数，可以有效缓解梯度消失问题，并能够使神经元的平均激活值接近零，加快训练速度。其公式为：ELU(x) = x (x > 0), α(exp(x) - 1) (x ≤ 0)，其中 α 是一个正数。

总而言之，选择合适的激活函数需要根据具体问题和数据集进行尝试和比较。没有一种激活函数是万能的，合适的激活函数能够显著提高模型的性能。上述七种激活函数只是众多激活函数中的几种代表，理解它们的特性对于设计和优化神经网络至关重要。