神经网络的起点：感知机

一、什么是感知机

感知机接收多个输入信号，输出一个信号。许多个这样的输出信号汇集在一起，可以形成类似于电流一样的“信息流”，向前方输送信息。不过有一点特殊的是，感知机的输出信号只有“流/不流”两种取值（1或0）。下图是一个接收两个输入信号的感知机的例子。

图1.1 感知机

上图中，x1和x2是输入信号，y是输出信号，w1和w2是权重(weight)，椭圆形的部分称为“神经元”或“节点”。当输入信号被送往神经元的时候，会被分别乘以固定的权重(w1x1, w2x2)。神经元会计算传送过来的信号的总和，只有当总和超过某个界限值的时候才会输出1，这种现象也被称为“神经元激活”。这个界限值通常被称为“阈值”，用θ表示。用公式来表达这种关系，则如下图：

图1.2 数学表达式

二、感知机能够解决的问题

如果你一位是学习过数字电路的朋友，那么我想你一定不会对逻辑门陌生。我们在这里以逻辑电路为例，来思考一下感知机能够完成的工作。不过在此之前，让我们先将图1.2中的数学表达式转换为一种更加标准的写法。我们将θ换成-b，于是原公式就变为：

图2.1

此处，b被称为偏置，w1和w2被称为权重。感知机会计算输入信号与权重的乘积，然后再加上偏置，并将该结果与0进行比较，从而确定输出信号。

需要强调的一点是，偏置b和权重w的作用是不一样的。具体来说，w1和w2的作用是控制输入信号重要程度的参数。某一个输入信号对应的权重越大，代表这个输入信号对结果的影响越大，也就越重要。而偏置b则是调整整个神经元被激活容易程度的参数。b的绝对值越大，则代表该神经元越难以被激活。

2.1 与门

如果用x1和x2代表输入，y代表输出，那么y仅在x1和x2都为1的时候才会输出1，其他时候输出均为0。按照图1.2中的数学公式来看，将x1 = 1和x2 = 1代入，就是：w1 + w2 > θ时候y = 1；反之则y = 0。由此我们只需要确定任意一个这样的元组（w1, w2, θ），使它们满足上述条件即可。比如，（0.5，0.5，0.5）或者（1.0，1.0，1.0）等等等等。用Python实现如下：

def AND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.7
    tmp = np.sum(w*x) + b 
    if tmp <= 0:
        return 0
    else:
        return 1

2.2 与非门

与非门的输出结果正好和与门相反，只有当x1 = x2 = 1的时候输出为0，其他情况下输出均为1。那么也就是：w1 + w2 > θ时候y = 0；反之则y = 1。为了满足这样的条件，我们可以选择这样的元组（-0.5，-0.5，-0.7）。Python实现如下：

def NAND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([-0.5, -0.5])
    b = 0.7
    tmp = np.sum(w*x) + b 
    if tmp <= 0:
        return 0
    else:
        return 1

2.3 或门

或门的逻辑条件为：只要有一个输入信号为1，输出就是1。只有当两个输入全为0的时候，输出才为0。根据简单的枚举，我们可以得出以下条件：

 (b <= 0) && ((w1+b>0) || (w2+b>0) || (w1+w2+b>0))

我们选择(w1, w2, b)为(0.5, 0.5, -0.2)。则Python实现如下：

def OR(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.2
    tmp = np.sum(w*x) + b 
    if tmp <= 0:
        return 0
    else:
        return 1

三、感知机的局限性

尽管通过上述讲解，感知机貌似可以做很多工作，然而这些工作都有一个共性：它们都是线性的问题。也就是说，感知机仅仅能表示由一条直线分割的空间，而由曲线分割而成的非线性空间却不能通过感知机的工作方式来表示。通过分析图2.1中的数学公式也不难得知此结论，因为所给的两个条件不等式都是线性表达式。因此，感知机无法用来表示“异或”，因为异或属于一个非线性的问题。（严格来讲，应该是单层感知机无法表示异或问题）

解决这一问题的办法是在原有的单层感知机上叠加层，使其变成多层感知机。通过离散数学中我们学过的布尔代数运算可知，异或关系可以通过如下的关系转换：

x1 XOR x2 = (x1 NAND x2) AND (x1 OR x2)

因此我们可以借助之前实现的三个逻辑门来实现异或运算。具体如下：

def XOR(x1, x2):
    s1 = NAND(x1, x2)
    s2 = OR(x1, x2)
    return AND(s1, s2)

通过图像来表示该模型，则如下：

图3.1 多层感知机

该感知机一共由三层组成，但是拥有权重的层实质上只有两层（1、2层之间和2、3层之间），因此称其为“2层感知机”，不过有的文献也因其由3层组成而称其为3层感知机。

通过以上异或门的表示方法我们可以得出一个结论： 通过叠加层，感知机可以进行更加灵活的表示。实际上，我们甚至仅仅通过感知机就可以表示一台计算机的工作方式。这是因为，计算机也是用于处理信息的机器，向其中输入一些信息后它会经过一系列既定的处理并输出结果。这种工作方式与感知机非常相似，而且只需要通过与非门的组合，就可以再现计算机进行的处理。

理论来讲，通过两层感知机就能构造计算机。这是因为已经由研究表明，2层感知机可以表示任意函数。然而通过人工设置合适的权重来构造计算机显然是一件非常反人类的工作，感兴趣的朋友可以自己尝试。。。

参考书：《深度学习入门--基于Python的理论与实现》