- 智能新媒体(微课版)
- 李卫东编著
- 14828字
- 2025-04-08 07:05:13
1.2 人工智能与新媒体发展
人工智能的广泛使用,将对新媒体发展产生革命性影响,将全方位再造新媒体,将全面变革现有新媒体的各个层面,将催生新型媒介体系——智能新媒体。本节首先介绍人工智能的概念与类型、基础知识和算法基础,在此基础上详细分析智能新媒体的内涵。
1.2.1 人工智能的概念与类型
1.人工智能的概念
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其中人工是指人工系统,智能一般是指思维和推理能力。
人工智能概念最早是在1950年,由英国数学家图灵在其论文《计算机与智能》中提出的。论文以“机器能思考吗?”开始,论述并提出了“图灵测试”,提出了人工智能机器需要达到的智能标准。但机器在这个测试中表现良好,就说明该机器具有智能,这就涉及人工智能如何定义的问题。一般而言,人工智能有助于计算机系统或机器实现有智能性要求的任务。在早期,人工智能主要借助计算机程序解决一些人类解决起来比较困难的任务,如下棋、证明定理和解决难题等。但现在,人们更倾向于认为,人工智能是机器执行与人类智能相似的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习和问题求解等思维活动。例如,2017年5月,中国乌镇围棋峰会上,阿尔法围棋机器人(AlphaGo)与世界围棋冠军柯洁对战,成为第一个击败人类职业围棋选手的人工智能程序。
目前还没有大家都认可的人工智能定义。常见的定义有:人工智能就是要让机器的行为看起来像是人所表现出的智能行为一样;人工智能是一种让计算机能够思维,使机器具有智力的激动人心的尝试;人工智能是人造机器所表现出来的智能性;人工智能就是机器具有可以像人一样思考和行动的特征,即机器“像人一样思考”“像人一样行动”“理性地思考”“理性地行动”等。
人工智能学是一门研究如何构造智能机器或智能系统,使它能够模拟、延伸和扩展人类智能的学科,具体的研究内容包括研究如何使计算机去做过去只有人才能做的智能工作,研究计算机如何模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)。
2.人工智能的分类
按照人工智能对人类智能模拟水平的高低,人工智能可分为弱人工智能、强人工智能和超人工智能。
弱人工智能(Artificial Narrow Intelligence,ANI)是指机器只不过看起来像是智能的,但是并不真正拥有智能,也不具有自主意识。弱人工智能往往只擅长单一方面的能力,不能运用知识去处理其他问题,它只能在特定领域里把事情做好,而通常不能反映出人类思想。如谷歌公司的阿尔法围棋机器人(AlphaGo)和AlphaGo Zero就是典型的弱人工智能,它们只擅长下棋,并不能解决其他问题。目前的聊天机器人只能与人进行简单的沟通,还无法真正与人就不同问题进行交流,也不具备情感、理性等。
强人工智能(Artificial General Intelligence,AGI)是指机器具有推理和解决问题的能力,是有知觉和自我意识的。这就要求机器能感知环境的变化和不断地自我学习。如基于生物神经网络的人工智能,其能模拟人脑的思维过程。
超人工智能(Artificial Super Intelligence,ASI)是指机器具有超越人类思考和行动能力的智能。有学者把超人工智能定义为:在几乎所有领域(包括科学研究领域)都比最聪明的人类智能还强的人工智能。但超人工智能最终能否实现,目前还存在较多的争议。
1.2.2 人工智能的基础知识
人工智能的实现需要深入探索机器感知、机器思维、机器学习和机器行为等基本问题。机器感知是使机器具有人类的感知能力,其中以机器视觉(Machine Vision)与机器听觉(Machine Hearing)为主:机器视觉是让机器能够识别并理解文字、图像、物景等;机器听觉是让机器能识别并理解语言、声响等。机器思维是指对通过感知得来的外部信息及机器内部各种信息进行有目的的处理,使机器能够获得类似于人的推理、判断、决策的能力。机器学习(Machine Learning)就是研究如何使机器具有类似于人类的学习能力,使机器能通过学习自动获取知识。知识是智能的基础。要使机器具有智能,就必须使其拥有知识,并能够获取知识和运用知识。机器行为是指机器具有类似于人类的表达能力、行动能力,即“说”“写”“画”“走”等行为能力,是机器作用于外界的重要途径。人工智能系统是为了实现特定目标,采用人工智能建立的智能机器和智能系统。人工智能系统集成了机器智慧,为各领域的应用提供设施与平台,其包括模型开发、系统分析、构造技术、建造工具、语言处理等结构,涉及机器感知、机器思维、机器学习、机器行为等多方面内容。具体而言,人工智能的技术原理较为繁杂,下面仅从知识表示与处理技术、知识推理与搜索技术、自然语言处理技术、智能体与多智能体系统方面做简要介绍,以便人文社会科学领域的读者形成对人工智能的初步认识。
1.知识表示与处理技术
(1)知识的概念与特性
知识是人类在实践生活和科学研究中积累起来的对世界和人类自身的认识和经验。因果关联是信息之间的关联形式之一,因果关联可构成知识。例如,如果大雁南飞,那么冬天就要来了。“如果……,那么……”,将信息关联起来,就形成了知识,这种关联形式称为知识的“规则”。
知识具有相对确定性和不确定性。知识的相对确定性是指,知识在一定的条件下一般是正确的。例如,牛顿“力”学在牛顿经典力学体系下是正确的,而1+1=2在二进制计算中就不是正确的。知识的不确定性是指,信息或信息的关联存在随机性、模糊性、不完全性,从而导致知识真假的不确定性。例如,“头痛且流涕”和“患了感冒”之间是一种不确定的因果关系,“所有的天鹅都是白的,所有的乌鸦都是黑的”也具有不确定性。
(2)知识的表示方法
知识可以用适当的形式表示出来,如语言、文字、图形、神经网络等,这样知识就能够被存储、传播。知识表示是将人类知识形式化或模型化,即对知识进行描述,使其成为可以被机器接受的知识描述的数据结构。目前,知识表示方法主要有一阶谓词逻辑表示法、产生式表示法、框架表示法等。
人工智能中用到的逻辑可分为两大类。一类是经典命题逻辑和一阶谓词逻辑,其特点是任何一个命题的真值或者为“真”,或者为“假”,二者必居其一。因为它只有两个真值,所以又称为二值逻辑。另一类是泛指经典命题逻辑外的那些逻辑,主要包括三值逻辑、多值逻辑、模糊逻辑等,统称为非经典逻辑。命题逻辑与谓词逻辑是最先应用于人工智能的两种逻辑,它们在知识的形式化表示方面发挥了重要作用。
2.知识推理与搜索技术
(1)知识推理技术
机器通过知识表示方法可以拥有一定的知识,但机器还需要思维能力才能实现运用知识求解问题。推理是问题求解的重要方法:从初始证据出发,按照某种策略不断运用知识库中的知识,逐步推出结论的过程称为推理。在人工智能系统中,实现推理的程序被称为“推理机”。按照推理的途径,可以将推理划分为演绎推理、归纳推理和默认推理:演绎推理是从全称判断推出单称判断的过程,即由一般性知识推出适合于某一具体情况的结论,是从一般到个别的推理;归纳推理是从足够多的实例中归纳出一般性结论的推理过程,是从个别到一般的推理;默认推理又称缺省推理,是在知识不完全的情况下,假设某些条件已经具备所进行的推理。
按照所用知识的确定性来划分,推理可分为确定性推理和不确定性推理:确定性推理是指推理时所用的知识和证据都是确定的,推出来的结论也是确定的,其真值或为真或为假;不确定性推理是指所用的知识和证据不全是确定的,推理出的结论也不全是确定的。
确定性推理方法主要包括自然演绎推理、鲁宾逊归结原理:从一组已知为真的事实出发,直接运用经典逻辑的推理规则推出结论的过程为自然演绎推理;鲁宾逊归结原理是机器定理证明的基础,是一种基于逻辑推理规则与谓词公式的证明子句集不可满足性,从而实现定理证明的一种理论及方法。它的基本方法是:将要证明的定理表示成谓词公式,并化为子句集,然后进行归结,一旦归结出空子句集,则定理得证。不确定推理是从不确定的初始证据出发,通过运用不确定知识,推出具有一定程度的不确定性但又是合理或基本合理的结论的思维过程。不确定性推理方法主要包括可信度方法、证据理论方法、模糊推理方法等。
(2)知识搜索技术
搜索技术是解决是否一定能找到一个解、是否终止运行、找到的解是否最佳、搜索过程时间与空间复杂性如何等问题的技术。常见的搜索策略包括回溯策略、宽度优先搜索策略、深度优先搜索策略、启发式图搜索策略等。回溯策略从初始状态出发,不停地、试探性地寻找路径,若它遇到不可解结点就回溯路径中最近的父结点上,查看该父结点是否还有其他子结点未被扩展。若有,则沿这些子结点继续搜索,如果找到目标,就成功退出搜索,返回解题路径。宽度优先搜索策略是由初始状态S0生成新状态,然后依次扩展这些状态,再生成新状态;本层扩展完后,再进入下一层。如此一层一层地扩展下去,直到搜索到目的状态。深度优先搜索策略是从初始状态S0出发,沿一个方向一直扩展下去,到达一定的深度。如果未找到目的状态或无法再扩展时,便回溯另一条路径继续搜索;若还未找到目的状态或无法再扩展时,再回溯另一条路径搜索。启发式图搜索策略是指能够利用问题有关的启发信息来简化搜索过程的策略。
3.自然语言处理技术
人工智能让机器能像人一样思考或行动,理解人类自然语言是其必备的基本能力。自然语言处理(Natural Language Processing,NLP)技术是使人工智能与人进行深层互动的重要技术之一。自然语言所具有的多义性、上下文相关性、模糊性、非系统性、环境相关性等特征使得机器理解自然语言难度较大,但其应用价值也较大。例如,自然语言处理技术在人工智能领域有着广泛的应用,能被用于实现客户意见分析、实现更准确的搜索以及知识管理和发现等领域。
在客户意见分析领域,自然语言处理技术可分析各种形式的客户交互,例如电子邮件、社交媒体文章、在线评论、电话录音文本等,并发现哪些因素会为客户带来正面和负面的体验。企业可以使用这些因素来改进产品和服务。
在搜索领域,自然语言处理技术可让搜索引擎对关键短语、实体和情绪建立索引,从而提供更好的搜索体验。
在知识管理和发现领域,自然语言处理技术可以按主题对文档进行整理和分类,以便于发现和向读者推荐与同一主题相关的其他文章,以提供个性化的内容推荐。
自然语言处理过程主要包括三个层次:词法分析、句法分析、语义分析。其中,词法分析是从句子中切分出单词,找出单词的各个词素,从中获得单词的语言学信息,并确定单词的词义。例如,汉语的每一个字就是一个词素。找出词素很容易,但要切分出词就非常困难。不仅需要具备构词的知识,还需要解决可能出现的切分歧义。如“我们—研究所—有—东西”,可以是“我们—研究—所有—东西”。
句法分析是对句子或短语结构进行分析,以确定构成句子的各个词、短语之间的关系以及各自在句子中的作用,将这些关系用层次结构加以表达,并对句法结构进行规范化。要让计算机识别句法,需要形式文法,其类似自然语言的文法。常见的文法分类是乔姆斯基(N. Chomsky)根据形式文法中所使用的规则集提出的,这个分类谱系定义了四种形式的文法:短语结构文法、上下文有关文法、上下文无关文法、正则文法。
语义分析是把分析得到的句子与应用领域中的目标表示相关联,从而理解语义。目前,语义法和格文法的提出能与句法分析紧密结合,实现语义分析。语义法是将文法知识和语义知识组合起来,以统一的方式定义文法规则集;格文法是为了找出动词和与动词处在结构关系中的名词的语义关系,同时涉及动词或动词短语与其他各种名词短语之间的关系。
当然,还有更高级的语用分析,这是未来需要不断突破的重要方向之一。语用分析也许能让机器人具有伦理判断和价值判断的能力。
4.智能体与多智能体系统
多智能体系统能够通过实现多智能体之间的相互协作来达到整体目标,从而解决现实中广泛存在的复杂大规模问题。
(1)什么是智能体
在人工智能领域,智能体(Agent)可以看作一个程序或一个实体,它嵌入环境中,通过传感器感知环境,通过效应器作用于环境并满足设计要求。目前,智能体的能力不断加强,能越来越多地模拟人的思维和行为,在分布式人工智能、机器人学、人机交互、智能搜索等领域被广泛应用。智能体含有独立的外部设备、输入/输出设备、各种功能操作处理程序、数据结构和相应的输出,具有自主性、反应性、社会性、进化性等特点。
(2)什么是多智能体系统
对于现实中的复杂大规模问题,只靠单个的智能体往往无法描述和解决。因此,需要一个包含多个智能体的应用系统,通过智能体自身具备的问题求解能力和行为目标,以及多个智能体之间的相互协作,从而达到整体目标,这样的系统被称为多智能体系统(Multi-Agent System,MAS)。多智能体系统是一个协调系统,各个智能体之间相互通信,彼此协调,集成各个子系统信息,从而提高问题求解效率。在多智能体系统中,不同领域的专家系统、同一领域的不同专家系统可以协作求解,这样就能打破当前知识工程中仅使用一个专家系统的限制。
1.2.3 人工智能的算法基础
1.什么是机器学习
机器学习是人工智能中最活跃的研究和应用领域之一,如阿尔法围棋机器人、图像识别、智能汽车等,都和机器学习密切相关。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据进行“训练”,通过各种算法从数据中学习如何完成任务。
机器学习使计算机能模拟人的学习行为,自动地通过学习来获取知识和技能,不断提高性能。一个机器学习系统一般包含环境、知识库、执行与评价、学习四个基本部分:环境指外部信息来源,可以是工作对象,也可以是外界条件;知识库用于存储学习得到的知识;执行是指计算机将所学到的知识用于现实问题的解决,评价是指由系统或人工协助对执行所得到的结果进行评价;学习是指计算机根据反馈信息决定是否需要从环境中进一步索取信息进行学习,以修改完善知识库中的知识。
机器学习的发展主要经历了神经元模型研究、符号概念获取、知识强度学习、连接学习和混合学习、大规模学习和深度学习(Deep Learning)五个阶段。当前机器学习主要处于大规模学习和深度学习阶段。运用机器学习算法可实现个性化推荐,可实现准确的预测模型构建、图像和视频分析、高级文本分析(使用自然语言处理从非结构化文本中提取见解和关系进行分析)、文档分析(自动从数百万文档中提取文本和数据进行分析)、语音服务(将文本转换为逼真的语音,为应用程序增加语音功能)等。例如,“Amazon Forecast”服务使用机器学习,将时间序列数据与其他变量相结合来实现高度准确的预测:用户只需要提供历史数据,以及可能会影响预测结果的任何其他数据(如对衬衫的特定颜色的需求可能会随着季节和商店位置而变化);Amazon Forecast会自动检查这些数据,识别有意义的内容,并生成一个预测模型,该预测模型的预测准确率要比单独查看时间序列数据的高出50%。
依据计算机学习能力,机器学习可分为监督学习、强化学习和非监督学习。监督学习根据“教师”提供的正确响应调整监督学习系统的参数和结构,监督学习系统对每个输入模式都有一个正确的目标输出。强化学习中外部环境对强化学习系统的输出结构只给出评价信息,而不是正确答案,强化学习系统通过那些受惩的动作改善自身的性能。基于遗传算法的学习方法就是一种强化学习。非监督学习完全按照环境提供的数据的某些统计规律调节自身的参数或者结构,以表示外部输入的某种固有特性,如聚类或者某种统计上的分布特征。当然,机器学习还可以按照学习方法、推理方式等角度进行分类,限于篇幅,在此不赘述。
2.什么是人工神经网络
人类智能的学习过程主要表现为中枢神经系统的连接活动过程。对人类中枢神经系统的理解是人工神经网络(Artificial Neural Networks,ANN)的前提。神经元是人脑神经系统最基本的组织单位和工作单元。现代人大脑内约有1011个神经元,每个神经元与其他神经元之间约有1000个连接,大脑内约有1014个连接。每个神经元主要由胞体、轴突和树突三部分组成:胞体是神经元的主体,用于处理由树突接收的其他神经元传来的信号;轴突是由细胞体向外延伸的所有纤维中最长的一条分支,用来向外传递神经元产生的输出电信号;树突是指由胞体向外延伸的除轴突以外的其他所有分支,用于接收从其他神经元的突触传来的信号。神经元主要有两个功能:一是神经元的抑制与兴奋;二是神经元内神经冲动的传导。
人工神经网络是由大量的处理单元(神经元)互相连接而形成的复杂网络结构。人工神经网络受动物大脑中的生物神经网络的启发,是对人脑组织结构和运行机制的某种抽象、简化和模拟。其中,人工神经网络是从微观结构和功能上对人脑的抽象、简化,旨在模仿人脑结构及其功能的智能信息处理系统。人工神经网络是模拟人类智能的一条重要途径,它反映了人脑功能的若干基本特征,如信息分布式存储、自适应学习、联想记忆和容错性、模式分类、鲁棒性等。
人工神经网络的提出最初是为了能使其以与人脑相同的方式来解决问题。然而,随着时间的推移,人工神经网络的研究重点从生物学转移到了如何使人工神经网络完成特定任务。随着现代科学技术和硬件设备的蓬勃发展,人工神经网络在处理数据量大且复杂的问题中有着越来越重要的作用。
人工神经网络的以下几个突出的优点使它近年来引起人们的极大关注:
(1)可以充分逼近任意复杂的非线性关系;
(2)所有定量或定性的信息都等势分布存储于人工神经网络内的各神经元,故它有很强的鲁棒性和容错性;
(3)采用并行分布处理方法,使得快速进行大量运算成为可能;
(4)可学习和自适应不知道或不确定的系统;
(5)能够同时处理定量、定性知识。
随着时代的发展,计算机视觉、语音识别(Speech Recognition)、自然语音处理等领域对信息处理需求越来越高,传统的人工神经网络显得力不从心。为了适应图像、语音和自然语言等方面的需求,学者们将传统人工神经网络的网络结构口占成多个隐含层,其中的运算也引入了卷积(Convolution),形成了一种新的神经网络——卷积神经网络(Convolutional Neural Network,CNN)。
3.什么是卷积神经网络
深度学习是机器学习的一个新领域,卷积神经网络是一种应用广泛的深度学习网络结构。卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络,采用深度学习的算法。它的人工神经元可以响应一部分覆盖范围内的周围单元,对于处理大型图像有出色表现。进入21世纪,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,被应用于计算机视觉、自然语言处理等领域。
卷积神经网络已经成为科学研究的热点之一。卷积神经网络采用局部连接、权值共享和下采样方式,去掉大量不重要的网络参数,简化模型结构,提高训练效率。卷积神经网络对于平移、比例缩放、倾斜或其他形式的形变具有高度的不变性,可以直接对图像的像素进行卷积,从中提取特征。一个卷积神经网络包含卷积层、池化层、全连接层等结构。
图1-2-1所示为一个简单的卷积神经网络结构。第1层输入图像进行卷积操作,得到第2层深度为4的特征图(Feature Map);对第2层的特征图进行池化(Pooling)操作,得到第3层的特征图;重复上述操作得到第5层深度为8的特征图;最后将这8个特征图,也就是8个矩阵,按行展开连接成向量,传入全连接(Fully Connected)层,全连接层就是一个人工神经网络。图1-2-1中的每个特征图都可以看成排列成矩阵形式的神经元,它们与人工神经网络中的神经元大同小异。

图1-2-1 卷积神经网络结构
但卷积神经网络究竟是如何计算的呢?下面介绍卷积操作、池化操作和反向传播算法。
(1)卷积操作
卷积操作是指从图像的左上角开始,使用设定好参数的卷积核从左到右、从上到下扫描整幅图像,卷积核与图像对应区域的数值相乘再求和,因此得到特征信息。卷积操作的计算过程如图1-2-2所示。每个卷积层包含多个卷积核,不同的卷积核用于计算不同的特征图,多卷积核可以提取到更丰富的特征。
卷积计算公式为

卷积层有一个特别重要的特点就是参数共享机制,即每个神经元连接数据窗的权重是固定的。在二维矩阵中,卷积操作对一个-区域进行计算,且区域大小与卷积核大小相等。图1-2-2所示有一个5×5的矩阵(代表灰度图像),构造一个3×3的矩阵,这个矩阵在卷积神经网络中称作卷积核,也即过滤器。对这个5×5的灰度图像进行卷积计算,设置步长为2,以图1-2-2中左上角的计算为例,0×3+2×1+1×0+3×8+0×9+2×3+5×2+6×1+1×0=48,其他的以此类推。让卷积核在灰度图像上逐步移动,对整个灰度图像进行卷积操作得到一个2×2的矩阵。

图1-2-2 卷积操作的计算过程
卷积操作得到的特征图的大小与卷积操作前特征图的大小、卷积核的大小、卷积核的步长存在一定关系,如式(1.2.2)和式(1.2.3)所示。

式(1.2.2)和式(1.2.3)中,W2是卷积操作后特征图的宽度,W1是卷积操作前图像或者特征图的宽度,F是卷积核的宽度,P是指对卷积操作前的图像或者特征图周围进行补0操作,S表示卷积核的步长,H2是卷积操作后特征图的高度,H1是卷积操作前图像或者特征图的高度。
(2)池化操作
池化的本质就是采样。池化操作一般通过简单的最大值、最小值或平均值操作完成,通过下采样减少特征数量,除去特征图中不重要的部分,减小“过拟合”风险。简而言之,池化操作就是特征选择和信息过滤的过程。池化操作包括两种方式:平均值池化和最大值池化。在实践中一般采用最大值池化方式。池化操作实际上就是在n×n的样本中取最大值或平均值作为下采样的输出值。全连接层一般作为卷积神经网络的最后几层,由上一层的特征堆叠得到融合卷积层学到的特征,可以在卷积神经网络中起到分类的作用。
下面以最大值池化方式介绍池化操作的过程,设置池化区域为2×2,步长为2,具体池化操作如图1-2-3所示。

图1-2-3 具体池化操作
(3)反向传播算法
卷积神经网络学习过程中需要定义损失函数,用于评估预测值与真实值之间的差异程度,损失函数也是卷积神经网络中需要进行优化的目标函数。卷积神经网络的训练目标就是最小化损失函数。损失函数值越小,说明预测值与真实值越接近,模型的预测效果越好。
卷积神经网络采用反向传播算法进行训练。前向计算每个神经元的输出值,然后根据损失函数反向计算每个神经元的误差项,根据误差项计算每个神经元权值的梯度,最后根据梯度下降算法更新权值。梯度下降算法分为批量梯度下降、小批量梯度下降、随机梯度下降(Stochastic Gradient Descent,SGD)三种。采用批量梯度下降算法描述反向传播算法的步骤如下。
卷积神经网络的输入:m个训练样本激活函数б、总层数L、迭代步长α、最大迭代次数Max、停止迭代阈值∈、各层的神经元个数、损失函数。卷积神经网络的输出:隐藏层与输出层的权值W与偏置b。
① 随机初始化隐藏层与输出层的权值W与偏置b。
② 进行第一次迭代:iter = 1。
③ 输入第i个训练样本,i从1开始。
④ 训练样本的值作为第一层输入层的值:ai,1=xi。
⑤ 从第二层一直到第L层输出层,使用前向传播算法,依次计算每层每个神经元的值:。
⑥ 使用损失函数计算输出层的损失函数值δi,L。
⑦ 从第L层输出层到第二层,使用反向传播算法,依次计算每层每个神经元的损失函数值:。
⑧ 按照步骤④~⑦依次输入m个训练样本进行训练。
⑨ 从第二层一直到第L层输出层,根据m个训练样本的损失函数值,更新每层的权值Wl与偏置bl

如果所有的W、b的变化值小于停止迭代阈值,则跳出循环。
⑩ 重复步骤②~⑨直到迭代次数达到Max。
⑪ 输出各层的权值W与偏置b。
其中符号⊙表示Hadamard积,对于两个维度的向量若
与则
。
使用批量梯度下降算法训练模型时,每次更新权值与偏置时,需要遍历训练样本中的所有样本。当训练样本非常大时,计算量将非常大。实际中常用随机梯度下降算法,每次随机选择一个样本进行权值与偏置值迭代,极大地提高了计算效率。由于样本存在噪声与随机性,因此随机梯度下降算法不容易陷入某个局部最小值。
4.几种常用的卷积神经网络
常用的卷积神经网络包括“LeNet-5”“AlexNet”“VGGNet”等。总体来看,卷积神经网络的发展和演化的基本主线是其堆积层数不断增加:LeNet-5中含有2个卷积层、2个下抽样层(池化层)以及3个全连接层;AlexNet的网络结构很简单,它是LeNet-5的放大版,输入是一个224×224的图像,经过5个卷积层,3个全连接层(包含一个分类层),到达最后的标签空间;VGGNet使用3×3的卷积,2个连续的3×3的卷积相当于5×5的感受野[1](Receptive Field),3个相当于7×7的感受野。LeNet-5、AlexNet、VGGNet、ZFNet的网络结构改进不大,但“GoogLeNet”“ResNet”“DenseNet”的网络结构都有不同程度的创新。限于篇幅,本小节仅简要介绍最新的ResNet和DenseNet。
(1)ResNet
2015年由何恺明博士提出的ResNet在网络结构上做了很大创新,而不再是简单地堆积层数,这是深度学习发展历程上里程碑式的事件。
理论和实验已经表明,神经网络的深度(Depth)和宽度(Width)是表征神经网络复杂度的两个核心因素。不过深度相比宽度在增加神经网络的复杂度方面更加有效,这也正是VGGNet想方设法增加深度的一个原因。
然而,随着深度的增加,训练会变得愈加困难。这主要是因为在基于随机梯度下降算法的神经网络训练过程中,误差信号的多层反向传播非常容易引发梯度“弥散”:梯度过小会使回传的训练误差极其微弱或者“爆炸”,梯度过大会导致模型训练出现“爆炸”的现象。
神经网络更深意味着参数空间更大,优化问题变得更难。因此,简单地去增加神经网络深度反而会出现更大的训练误差。深层神经网络虽然收敛了,却开始退化了,即增加神经网络层数却导致更大的训练误差,这就是退化问题。
ResNet引入了残差网络(Residual Network)结构,通过残差网络,神经网络可变得很深,即使达到了1000多层,最终的分类效果也会非常好。残差网络的基本结构如图1-2-4所示。
从图1-2-4可以看出,数据经过了两条路线:一条是常规路线,另一条则是捷径(Shortcut)。捷径是直接实现单位映射的直接连接的路线。这种带有捷径的残差网络结构可以很好地应对退化问题。我们把神经网络中的一个模块的输入和输出关系看作y=H(x),那么直接通过梯度方法求H(x)就会遇到上面提到的退化问题。如果使用了这种带捷径的残差网络结构,那么可变参数部分的优化目标就不再是H(x)。若用F(x)来代表需要优化的目标的话,则H(x)=F(x)+x,也就是F(x)=H(x)-x。因为在单位映射的假设中,y=x就相当于观测值,所以F(x)就对应着残差,因而叫残差网络。由于学习残差F(x)比直接学习H(x)简单,所以只需要去学习输入和输出的差值就可以了,绝对量变为相对量(H(x)-x就是输出相对于输入变化了多少),因此优化起来就简单了很多。
残差网络进一步采用了深度残差模块,如图1-2-5所示。

图1-2-4 残差网络的基本结构

图1-2-5 深度残差模块
这相当于对相同数量的层又减少了参数量,因此可以拓展成更深的模型。于是何恺明博士提出了50、101、152层的ResNet,而且不仅没有出现退化问题,错误率也大大降低,同时计算复杂度也保持在很低的程度。
(2)DenseNet
DenseNet是2017年提出的网络结构,DenseNet吸收了ResNet的精华部分,并在此基础上做了更加创新的工作,使得网络性能进一步提升。
DenseNet的特点是:密集连接、缓解梯度消失问题、加强特征传播、鼓励特征复用,极大地减少了参数量。DenseNet是一种具有密集连接特点的卷积神经网络。在该网络中,任意两层之间都有直接的连接。也就是说,DenseNet每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。DenseNet中的密度模块(Dense Block)结构如图1-2-6所示。

图1-2-6 密度模块结构
DenseNet的一个优点是网络更窄、参数更少,这很大一部分原因得益于密度模块的设计。在密度模块中每个卷积层的输出特征图的宽度都很小(小于100),而不像其他网络一样动辄几百上千的宽度。同时,密集连接使得特征和梯度的传递更加有效,网络也就更加容易训练。密集连接相当于每一层都直接连接输入和损失,因此就可以减轻梯度消失现象。另外,DenseNet的这种密集连接有正则化的效果,因此对于过拟合有一定的抑制作用。
DenseNet比其他网络效率更高,其关键就在于网络每层计算量的减少以及特征的重复利用。密集连接能使每一层都包含之前所有层的输出信息,因此其只需要很少的特征图,这也是DneseNet的参数较其他模型大大减少的原因。DenseNet结构如图1-2-7所示,它由多个密度模块连接而成,密集连接仅存在于同一个密度模块中,不同密度模块之间没有密集连接。

图1-2-7 DenseNet结构
DenseNet的优点总结如下:
① 有效解决梯度消失问题;
② 强化特征传播;
③ 支持特征重用;
④ 大幅度减少参数。
DenseNet的核心思想在于建立了不同层之间的连接关系,充分利用了特征,进一步减轻了梯度消失现象,训练效果非常好。另外,DenseNet利用瓶颈层(Bottleneck Layer,密度模块中的1×1卷积层)、过渡层(Transition Layer,密度模块之间的1×1卷积层)以及较小的生长率(每个密度模块中每层输出的特征图个数)使得网络变窄、参数减少,有效抑制了过拟合,同时减少了计算量。
5.人工神经网络与连接学习
人工神经网络是将人工神经元按照一定的拓扑结构进行连接所形成的网络。人工神经网络是对生物神经网络的模拟,其结构包含输入端、输出端和计算单元三部分,其中输入端相当于生物神经元的树突,输出端相当于轴突和突触,计算单元相当于胞体。
人工神经网络的基本工作单元是人工神经元。人工神经元是对生物神经元的抽象和模拟,它采用数学模型的方法模拟生物神经元的结构和功能。人工神经网络的拓扑结构可分为前馈网络和反馈网络:前馈网络是指只包含前向连接,不存在任何其他连接方式的神经网络,其连接方式是从上一层每一个神经元到下一层的所有神经元;反馈网络是指允许采用反馈连接方式所形成的网络,其连接方式是一个神经元的输出可以被反馈至同层或浅层的神经元重新作为输入。
连接学习是基于人工神经网络的机器学习方式,其基本思想是:人脑学习所获得的信息分布在神经元之间的突触连接上,学习和记忆的过程实际上是在网络训练过程中完成的突触连接权值的修正和稳定过程。连接学习的发展与人工神经网络的发展联系密切,基于人工神经网络结构模型及其层次,连接学习可以划分为浅层连接学习和深度学习两大类。
6.深层神经网络与深度学习
深层神经网络也叫深度神经网络(Deep Neural Networks,DNN),通常指隐藏层不少于两层的神经网络,目前数十层、上百层甚至更多的深层神经网络很普遍。深层神经网络是深度学习算法设计的网络基础。卷积神经网络是最典型最常用的深层神经网络。卷积神经网络是一种由若干卷积层和子采样层交替叠加形成的深层神经网络,其出现受生物界感受野概念的启发,采用逐层抽象、逐次迭代的工作方式。
深度学习是连接学习的子领域,是基于深层神经网络、面向底层数据对象、采用逐层抽象机制、最终形成高层概念的机器学习方式。基于深层卷积神经网络的深度学习过程就是对卷积神经网络的训练过程,由计算信号的正向传播和误差的反向传播组成:卷积神经网络的正向传播是指从输入层到输出层的计算信号传播过程;卷积神经网络的反向传播是误差的反向传播和参数的反向调整。深度学习使得无人驾驶汽车等人工智能应用成为可能。
1.2.4 什么是智能新媒体
智能新媒体是一种人工智能与现有媒介体系深度融合的产物。一方面,智能的涌现是智能新媒体的重要功能;另一方面,信息的传播是智能新媒体的基本功能。结合这两个方面,智能新媒体可定义为同时兼具智能属性和媒体属性的人工智能应用,是数据、算法和算力的集成,是具有“大脑”的新媒体。其中,数据是信息传播的内容,也是智能涌现的前提,是智能新媒体形成的基础。智能新媒体的智能性体现在其具有类似人脑的思维和推理能力,算法是实现这些能力的关键。面向海量数据(大数据)的复杂算法运行需要强大的算力,因此算力是实现智能新媒体的保障。如AlphaGo之所以能战胜围棋顶尖高手,是因为其依靠一千多万张棋谱、深度学习算法和强大的算力。
依据1.1节中“新媒体的体系说”,智能新媒体可被定义为在人工智能环境下由新型网络、新型数据处理模式、新型计算模式、新型浏览模式、新型应用模式和新型终端构成的新型媒介体系。也即,智能新媒体的网络之“新”是“5G”,数据处理模式之“新”是机器学习,计算模式之“新”是“人工智能云”,浏览模式之“新”是智能浏览器,终端之“新”是智能穿戴设备,应用模式之“新”是智能应用模式。
因此,智能新媒体的内涵可以通过层次模型进行描述,这样就可以清晰地厘清其发展的脉络,如图1-2-8所示。
智能新媒体的终端层作为内容和服务到达用户的收受媒介,正在向智能化方向发展。机器人已成为人机一体的新型信息传播终端,新闻主播机器人、聊天机器人等成为越来越重要的信息传收者。总体而言,“万物皆终端”是总体的发展趋势,即万事万物都将成为智能新媒体的终端,都将成为信息的传播者。具体而言,智能新媒体的终端层的革新主要体现在以下四个层面。
第一,电视、电脑、智能手机等终端的媒介属性差异将会进一步减小。如存储在云端的一部电视剧,用户用自己的账号付费后,在家里可用电视看,在上班的路上可用智能手机接着看,到办公室后可用计算机继续看。

图1-2-8 智能新媒体的层次模型
第二,人工智能正在再造当前的智能手机。一般而言,智能手机是指具有独立的操作系统、独立的存储能力、独立的计算能力,能无线接入移动通信网络的新型手机。但随着更多的人工智能被应用到智能手机当中,新型的智能手机开始具有屏内指纹识别、语音识别、刷脸支付、智慧识物、智慧识屏等人工智能性能。

【拓展案例】华为Mate 10
第三,具有人工智能性能的智能手表、智能手环等智能穿戴设备不断问世,正在带给我们全新的信息传播体验。当前,谷歌眼镜、苹果手表、谷歌智能鞋、微软眼镜、太阳能比基尼、手套式手机、节拍手套、社交牛仔裤、卫星导航鞋等智能穿戴设备正逐步成为重要的智能新媒体终端。这些不断涌现的智能新媒体终端能为人们随时随地获取“云”中的媒介信息提供便利。特别是随着无线通信及移动计算技术的应用将逐步普及,人们借助各类智能新媒体终端,能突破地域的限制,能实现随时随地互相接收信息,能有效提高信息传播的便捷性,拓宽信息传播的广度。同时,人们可以根据自身的个性化需求,应用各类智能新媒体终端定制各类信息,从而实现一种定时、定向的个性化传播。
第四,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)终端也正在兴起。虚拟现实终端主要有移动端虚拟现实设备、计算机端虚拟现实设备和一体机虚拟现实设备。其中一体机虚拟现实设备通常是一种具备独立处理器的头戴式显示设备,具备独立运算、输入和输出功能。增强现实终端也在快速发展,主要包括手持式增强现实设备、空间展示增强现实设备和可穿戴式增强现实设备。其中,手持式增强现实设备是用手机或任何移动终端的摄像头获取现实世界的图像,在移动终端的现实世界图像、视频中叠加虚拟信息;空间展示增强现实设备主要是指用显示器等屏幕呈现增强现实信息;可穿戴式增强现实设备主要包括广场显示或其他视网膜显示技术设备和头戴式显示技术设备。
在智能新媒体的应用模式层,人工智能与现有的各类应用产品正在融合发展,如人工智能+信息获取应用模式、人工智能+交流互动应用模式、人工智能+生活娱乐应用模式、人工智能+电子商务应用模式。本书第6章、第7章、第 8章、第9章将分别对这四种应用模式进行详细讲述。
在智能新媒体的浏览层,经历了万维网1.0(Web 1.0)和万维网2.0(Web 2.0)时代,正在向万维网3.0(Web 3.0)时代发展。本书第2章将对其进行详细讲述。
在智能新媒体的计算层,人工智能+云计算的深度融合将成为智能新媒体发展的基本趋势,人工智能云服务将成为人工智能应用产品搭建的基石。算法是智能新媒体的核心,强大的算力和无限扩展的计算资源是实现智能新媒体应用的前提。云计算作为一种新型的计算模式,是信息技术(Information Technology,IT)发展历程中最具革命性的重大进展。人工智能+云计算将推动智能新媒体向云端化方向发展,云端化存储、云端化部署和云端化开发将成为人工智能应用产品

【拓展案例】网易影见

【拓展案例】UC浏览器

【拓展案例】喜马拉雅的开放平台
实现的基本方法。也即,智能新媒体产品通过接入的方式就可获取智能资源和智能功能。本章1.3节将对其进行详细讲述。
在智能新媒体的数据层,基于机器学习和深度学习算法的大数据智能涌现是智能新媒体内容产生的基本方式。大数据是智能的源泉,是人工智能应用开发的基础资源。智能新媒体应用的数据规模正由“小数据时代”迈向“大数据时代”,数据处理模式正由“关系数据管理技术”向“非关系数据管理技术”转变。在大数据环境下,如何开发、利用海量非结构化数据是当前面临的重要难题之一。人工智能的发展和成熟能为视频的识别和分析提供有力的技术支撑,专门处理和分析海量非结构化数据的人工智能产品也在不断涌现,将为人们传播和利用海量非结构化数据带来“福音”。本书第5章将对其进行详细讲述。
在智能新媒体的基础设施层,硬件基础设施和网络基础设施也在不断升级换代。硬件基础设施包括各类数据中心(Data Center)、服务器集群、超级计算机,以及各类存储设备、网络设备等。网络基础设施包括5G网络和智能物联网等。“网络”一词不再专指互联网,网络应用的基础平台正从互联网、移动互联网向5G和智能物联网扩展。本章1.4节将对其进行详细讲述。
总之,一个个具体的智能新媒体应用相当于用户在网络空间要到达的“目的地”,相当于“车站”。终端是用户使用智能新媒体应用的“工具”,相当于“车”,是一种“交通工具”;浏览器是用户使用智能新媒体应用的浏览工具,设定了大家都必须遵守的一系列“协议”,相当于“交通规则”;网络基础设施是用户使用智能新媒体应用的“支撑平台”,相当于“高速公路”;云计算是智能新媒体应用运行的新型“架构”,大数据是智能新媒体应用发展的战略资源,相当于智能新媒体的“石油”。