神经网络和决策树的等价原理:提高神经网络的可解释性和透明度

309 阅读7分钟

在过去的十年中,神经网络在各个行业都取得了巨大的成功。然而,他们预测的黑匣子性质阻碍了他们在健康和安全等领域得到更广泛和更可靠的采用。这促使研究人员研究解释神经网络决策的方法。 

解释神经网络决策的一种方法是通过显着图,它突出显示神经网络在进行预测时使用最多的输入区域。然而,这些方法通常会产生嘈杂的结果,无法清楚地理解所做的决定。 

另一种方法涉及将神经网络转换为可解释的设计模型,例如决策树。这种转换一直是研究人员感兴趣的话题,但大多数现有方法需要对任何模型进行更多泛化或仅提供神经网络的近似值。

在这篇博客中,我们揭示了一种提高神经网络可解释性和透明度的新方法。我们表明,等效的决策树可以直接表示任何神经网络,而无需改变神经架构。决策树表示提供了对神经网络的更好理解。此外,它允许分析测试样本所属的类别,可以通过对样本进行分类的节点规则来提取类别。

我们的方法扩展了以前工作的发现,并适用于任何激活函数和递归神经网络。神经网络和决策树的这种等价原理有可能彻底改变我们理解和解释神经网络的方式,使它们更加透明和可解释。此外,我们表明,相当于神经网络的决策树在计算上具有优势,但会增加存储内存。在这篇博客中,我们将探讨这种方法的含义,并讨论它如何提高神经网络的可解释性和透明度,为它们在健康和安全等关键领域更广泛、更可靠的采用铺平道路。 

将决策树等价性扩展到具有任何激活函数的任何神经网络

具有分段线性激活函数(例如 ReLU 和 Leaky ReLU)的前馈神经网络至关重要,并且为将决策树等价性扩展到具有任何激活函数的任何神经网络奠定了基础。在本节中,我们将探讨如何将相同的方法应用于递归神经网络,以及决策树等价性如何也适用于它们。我们还将讨论我们方法的优点和局限性,以及它与其他方法相比如何提高神经网络的可解释性和透明度。最后,让我们深入细节,看看这个扩展是如何实现的。

利用完全连接的网络

在等式 1 中,我们可以表示给定输入 x0 的前馈神经网络的输出和中间特征,其中 Wi 是网络第 i 层的权重矩阵,σ 是任何分段线性激活函数。这种表示对于推导具有分段线性激活函数的前馈神经网络的决策树等效性至关重要。通过使用这种表示,我们可以轻松地将方法扩展到具有任何激活函数的任何神经网络,正如我们将在下一节中看到的那样。

方程式

等式 1 表示前馈神经网络的输出和中间特征,但它省略了最终的激活和偏置项。通过为每个 xi 添加 1 值,可以很容易地包含偏差项。此外,激活函数 σ 充当逐元素标量乘法,可以如图所示表示。

等式2表示向量ai-1,它表示W T i -1和x i-1 所在的相应线性区域中激活的斜率,⊙表示逐元素乘法。该向量可以解释为分类结果,因为它包括激活函数中线性区域的指标(斜率)。通过重组方程式。2,我们可以进一步推导出具有任何激活函数的任何神经网络的决策树等价性,我们将在下一节中看到。

等式 3 使用 ⊙ 作为 Wi 上的逐列逐元素乘法,这对应于通过重复i-1列向量以匹配 Wi 的大小而获得的矩阵逐元素乘法。通过使用等式。3,我们可以重写Eq。1 如下。

当量。图 4 定义了层 i 的有效权重矩阵 Ŵ T i直接应用于输入 x 0,如下所示。

在等式中。图 5,我们可以观察到第 i 层的有效矩阵仅取决于前几层的分类向量。这意味着在每一层中,都会根据之前的分类或决策选择一个新的高效过滤器应用于网络输入。这表明完全连接的神经网络可以表示为单个决策树,其中有效矩阵充当分类规则。这种方法极大地提高了神经网络的可解释性和透明性,并且可以扩展到具有任何激活函数的任何神经网络。

可以从以下算法推导出等式 5:

归一化层不需要单独分析,因为流行的归一化层是线性的。训练后,它们可以分别在激活前或激活后归一化之后或之前嵌入到线性层中。这意味着可以将归一化层合并到具有任何激活函数的任何神经网络的决策树等价性中,而无需额外分析。

此外,神经网络中的有效卷积仅依赖于来自激活的分类,这使得树等价性类似于全连接网络的分析。然而,与全连接层情况的不同之处在于,许多决策是在部分输入区域而不是整个 x0 上做出的。这意味着决策树等价方法可以扩展到卷积神经网络,但要考虑部分输入区域。通过合并归一化层和卷积层,我们可以创建一个捕获整个神经网络的决策树,从而显着提高可解释性和透明度。

在等式 2 中,“a”中元素的可能值受分段线性激活的激活函数中的分段线性区域限制。这些值的数量决定了每个有效过滤器的子节点数量。当使用连续激活函数时,即使是单个过滤器,子节点的数量也会变成无限宽度,因为连续函数可以被认为具有无限数量的分段线性区域。虽然这可能不切实际,但为了完整起见,我们还是提到了它。为了防止无限树,一种选择是使用连续激活的量化版本,这将导致只有几个分段线性区域,因此每个激活的子节点更少。

由于循环神经网络(RNN) 可以转换为前馈表示,因此它们也可以类似的方式表示为决策树。然而,在这种情况下研究的特定 RNN 不包括偏置项,偏置项可以通过将 1 值添加到输入向量来定义。

image.png

ay = x2 回归神经网络的清理决策树

结论

总之,以现有研究为基础对于推进神经网络领域至关重要,但避免剽窃同样重要。 

神经网络和决策树之间的等价性对于提高神经网络的可解释性和透明度具有重要意义。通过将神经网络表示为决策树,我们可以深入了解这些复杂系统的内部工作原理,并开发更透明和可解释的模型。这可以在从医疗保健到金融再到自治系统的各种应用中提高对神经网络的信任和接受度。虽然在充分理解神经网络的复杂性质方面仍然存在挑战,但树等价性为推进该领域和解决黑盒问题提供了一个有价值的框架。随着这一领域研究的不断深入,我们期待着能够推动更多可解释和可解释神经网络发展的发现和创新。

通过理解神经网络的树等价性,我们可以深入了解它们的内部工作原理,并在设计和优化它们时做出更明智的决策。这些知识可以帮助我们应对解释神经网络黑盒性质的挑战。那么,让我们以好奇和创造的精神,继续探索神经网络的迷人世界吧。