一切始于1900年,在当年的巴黎国际数学家代表大会上,大数学家希尔伯特提出了新世纪数学家应当努力解决的23个数学问题,被认为是20世纪数学的至高点,在世界上产生了深远的影响。其中希尔伯特的第十个问题,可以看做人工智能求解的问题。
这个问题将人工智能需要解决的问题,成功转化成了一个数学问题。这个问题也引起了一个年轻人艾伦·图灵(Alan Turing 现代计算机理论,人工智能的奠基人)的关注,基于这个问题的研究,图灵提出了图灵机模型,将不确定的问题的求解转化为了确定的机械模型,并且也比较明确的将“有限步骤的运算”定义为了算法的概念。
1936年图灵机模型被提出,它模拟了人类进行计算的过程。一条无限长的纸带,纸带分成了一个个的小方格,作为草稿纸(输入和输出);一个机器头在纸上移来移去,作为笔;一段涵盖基本运算法则的固定程序和一个程序内部状态的列表,作为思考和计算过程(算法)。
从上看其实图灵机模型很简单,但是我们每一个会决策,会思考的人就可以抽象的看成一台图灵机。每一时刻,图灵机接受输入(外部环境的信息输入集合),结合自己的内部状态查找程序列表(认知判断的智能),图灵机输出(响应或则决策的输出集合)。欧亿体育官方网站抽象成了人处理各种事务,决策行动的智能过程。
输入集合 I(感知,认知):你所处的环境中能够看到的、听到的、闻到的、感觉到的一切。
输出集合 O(行动):你的一言,一行,一个表情动作。
固定程序 T(决策):物理和社会的常识,默认的行为标准。
内部状态 S(推理,学习):你所有可变的元素均可以作为内部状态,情绪,记忆,学习到的知识。
我们可以说人的行为太不固定了,欧亿体育官方网站依赖太多。但是任何的变化我们都可以通过不同的内部状态和对应的固定程序进行表示,也就是说理论上只要我们有足够的固定程序和内部状态能描述所有的变量。我们可以说人脑的行为不会超越图灵机模型,所以人工智能是有可能实现的。
也许这里人们会说,描述所有的变量是不可能的。确实,环境和变量是无限的,我们要用有限的计算去解决无限的问题,难道真是不可能的吗?这时,大家想一想我们人是怎么处理类似问题,比如小时候学习整数加法:
组合:我们将加法拆解为更小的加法,先学个位的,然后100以内的加法我们可以拆成多个10以内的加法,再求和。同样的一个无限的求值,我们可以用有限个图灵机的组合去逼近。
归纳:我们也会归纳总结,我们发现了个位加法,进位的规律,得到归纳的解法,这样就能通过有限的算法去解决所有整数加法的问题。
通过组合和归纳,我们能够通过图灵模型解决很多问题,但是人们又会说:归纳的方式是人为归纳,然后预制到固定程序和内部状态中的,没有人为归纳过的程序怎么办?我们可以机器归纳吗?
遗憾的是这个已经通过证明程序P并不存在,感兴趣的同学可以看看相应的资料,也就是著名的-图灵停机问题。
这也是图灵计算的限制,要想超越图灵计算的限制,我们必须放弃程序的实在性。因为只有程序每时每刻都在变化,一个不断改变自己的程序,且这种改变也不是一个固定的程序。这样才能出现解决所有问题的通用智能,强人工智能的存在。
这才像人脑处理信息一样,不断的学习更新我们的自身程序和内部状态,我们才能处理更多的事务。
然后在1950年,图灵测试诞生了。按照图灵的定义:如果一台机器能够与人类开始对话(通过电传设备)而不能被辨别出其机器身份,那我们称这台机器具有智能。同时,图灵还预研创造出具有真正智能的机器是可能的。
时间来到1956年8月份,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡(John McCarthy 达特茅斯项目发起人)、马文·闵斯基(Marvin Minsky,人工智能与认知学专家)、克劳德·香农(Claude Shannon,信息论的创始人)、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主)等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:用机器来模仿人类学习以及其他方面的智能。
除了以上总共有10个人,除了香农,其余人在当时并没有太多名气。会议足足开了两个月的时间,按照之前申报到洛克菲勒基金的研究课题列表,会议重点讨论了以下话题:
虽然最终没有达成普遍的共识,但是会议上AI的名称和任务得以确定,同时出现了最初的成就和最早的一批研究者,因此这一事件被广泛承认为AI诞生的标志,1956年也就成为了人工智能元年。
在达特茅斯会议之后,AI进入了快速发展的黄金时代,各个领域都有进展,行业也出现了乐观的思潮。
1957年,弗兰克·罗森布拉特(Frank Rosenblatt)打造出“感知器Perceptron”,这是第一个用算法精确定义的两层神经网络,是日后许多神经网络的模型。1964年,丹尼尔·鲍勃罗(Daniel Bobrow)完成了他的麻省理工博士论文《Natural Language Input for a Computer Problem Solving System》。同时开发了一个名叫“STUDENT”的自然语言理解程序1965年,约瑟夫·维森班(Joseph Weizenbaum)开发了互动程序ELIZA,能够就任何线年,机器人Shakey是第一个通用型移动机器人,能够按逻辑推理自己的动作。生活周刊在一篇评论文章中引用马文·闵斯基(Marvin Minsky)的预言:3~8年内,机器就将达到普通人的智能水平。1968年,电影《2001太空漫游》上映。片中突出刻画了“哈尔”,一个有感情的电脑。1969年,阿瑟·布莱森(Arthur Bryson)和何毓琦(Yu-Chi Ho)描述了反向传播作为一种多阶段动态系统优化方法,可用于多层人工神经网络。1969年,马文·闵斯基(Marvin Minsky)和西摩尔·帕普特(Seymour Papert)发表了《Perceptrons: An Introduction to Computational Geometry》。描述了简单神经网络的局限性。
运算能力:当时的计算机有限的内存和处理速度不足以解决任何实际的AI问题。
常识与推理:许多重要的AI应用,例如机器视觉和自然语言,都需要大量对世界的认识信息。程序应该知道它在看什么,或者在说些什么。这要求程序对这个世界具有儿童水平的认识。而1970年没人能够做出如此巨大的数据库,也没人知道一个程序怎样才能学到如此丰富的信息。
如自然语言理解一直是人工智能的肉骨头,在当时机器翻译表现得非常差劲,一个典型的例子:
The pen was in the box.
The box was in the pen.
The pen was in the box(钢笔在盒子里),这句话很好理解,如果让计算机理解它,做一个简单的语法分析即可。但是另一句语法相同的话:The box was in the pen. 就让人颇为费解了。原来,在英语中,pen(钢笔)还有另外一个不太常用的意思-围栏。让机器翻译这两句话,会得出同样的语法树,但机器根本不能区分到底哪一句应该用钢笔,哪一句应该用围栏进行翻译。这也是自然语言理解领域遇到的问题,这两句话的翻译并不依赖于语法分析和语义分析,而是来源于常识或者说是世界的知识(World Knowledge),这是传统的人工智能方法无法做到的。
传统的人工智能过于强调通用的求解方法,而忽略了具体的知识,因此,人工智能必须引入知识
一个领域有没有成熟的主要度量之一是它是否挣钱,而人工智能长期没有商业应用也是它一直被批评的原因。在进入了八十年代之后,1980年CMU为DEC(Digital Equipment Corporation,数字设备公司)设计了一个名为XCON的专家系统,这是一个巨大的成功。在1986年之前,它每年为公司省下四千万美元。然后全世界的公司都开始研发和应用专家系统,到1985年累计已在AI上投入十亿美元以上,大部分用于公司内设的AI部门。
知识革命:专家系统的能力来自于它们存储的专业知识,也是上面提到的70年代中遇到的瓶颈。人工智能的研究者意思到,智能可能需要建立在对分门别类的大量知识的多种处理方法之上。
1982年,物理学家John Hopfield证明一种新型的神经网络(现被称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同时(早于Paul Werbos),David Rumelhart推广了“反传法(en:Backpropagation)”,一种神经网络训练方法。这些发现使1970年以来一直遭人遗弃的联结主义重获新生。
专家系统逐渐淡出也是人工智能领域对于通用知识,知识图谱的一次尝试。
到了1993年,AI经过40年的发展终于开始实现它的一些最初目标,这些成就有的归功于计算机性能的提升,有的则是在学者对特定的课题不断追求而获得的。不过,至少在商业领域里AI的声誉已经不如往昔了,各种因素的将AI拆分为各自为战的几个子领域,有时候它们甚至会用新名词来掩饰“人工智能”。整个AI领域主要分为了三大流派,AI比以往的任何时候都更加谨慎,却也更加成功,
1997年5月11日,IBM公司的电脑“深蓝”战胜国际象棋世界冠军卡斯帕罗夫,成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。2011年,Watson(沃森)作为IBM公司开发的使用自然语言回答问题的人工智能程序参加美国智力问答节目,打败两位人类冠军,赢得了100万美元的奖金。符号学派也存在争议,因为人类探索真理,追求公理化的过程是无限的。很多时候我们面对未知只是在范围内检验了真理,而并不是证明了真理,就像地心说,日心说的演进,直到我们遇到错误时我们并不知道我们的公理是正确的。
连接学派实质上是来自于人类大脑神经网络的计算机模拟:大脑的每个神经元细胞具有树突、轴突和细胞体。树突可以接收信号,轴突用于输出信号,不同细胞的树突和轴突之间是神经突触,不同的突触具有不同的权重。树突传入的信号强度与相应的突触权重相乘,经由细胞体设置的非线性阈值检验,触发轴突的兴奋或抑制。数目庞大的神经元连接成结构复杂的网络,从而实现灵活多样的功能。
目前的深度学习技术就是基于连接学派的理念。
1957年,弗兰克·罗森布拉特(Frank Rosenblatt)打造出的“感知器Perceptron”,这是第一个用算法精确定义的两层神经网络。1969年,马文·闵斯基(Marvin Minsky)和西摩尔·帕普特(Seymour Papert)发表了《Perceptrons: An Introduction to Computational Geometry》描述了简单神经网络的局限性,发现神经网络不能解决所有问题,差点把连接学派一棍敲死。1986年10月,大卫·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)发表了《”Learning representations by back-propagating errors》。描述了一种新的学习程序,可用于神经元样网络单位的反向传播,连接学派开始名声大噪,大量的研究又开始涌入。1989年,燕乐存(Yann LeCun)和贝尔实验室的其他研究人员成功将反向传播算法应用在多层神经网络,实现手写邮编的识别。考虑到当时的硬件限制,他们花了三天来训练网络。1997年,赛普·霍克赖特(Sepp Hochreiter)和于尔根·施密德胡伯(Jürgen Schmidhuber)提出长短期记忆人工神经网络(LSTM)概念。这一概念指导下的递归神经网络在今日手写识别和语音识别中得到应用。
但是连接学派也存在争议,神经网络或者说深度学习本质上让是大量数据经过神经网络节点然后从中找到“相关性”,但是我们并不清楚这些神经网络是怎么工作的,我们无法获得“因果关系”。
自底向上地创造智能,这一主张复兴了从60年代就沉寂下来的控制论。
涌现属性。它们强调智能是比生命更高一级的涌现,只存在于宏观而不能分解到微观个体层次的属性、特征或者行为上。有点群体行为学,心理学,哲学的调调在里面。
算力:自从1965年摩尔博士提出了摩尔定律,计算机处理器和存储器的性能分别提高了2000万倍和10亿倍,价格却不断下降。同时云计算的出现,让算力的问题有了更多的解决方案。
数据:互联网时代的到来和移动互联网的兴起,使得人们无时无刻不在上传数据,文字、图片、视频各种信息可用。图片共享网站Pinterest中,2015年每天就有7000万张图片被上传,这在1970年是不可想象的。
在2005年2月份,由美国国家标准与技术研究所(简称NIST)主持的机器翻译测评和交流中,第一次参加测评的Google机器翻译团队竟然大幅领先其他研究团队的同类系统。其中,中文到英文的翻译中,Google 51.37%的得分比第二名领先了17%,而在过去每提高5个百分点,需要5-10年的研究,而17%的领先基本上是一代人的努力。而Google的秘诀仅仅是
使用了基于统计的方法而非传统的使用语义的方式(基于统计结果判断当前翻译结果为哪一个的可能性更高,感兴趣的同学可以先看看吴军博士的《数学之美》)。
Google使用的统计和训练数据比其他公司的数据多了上万倍,把各个模型和算法的差异抛弃了,从数据量上直接提升了翻译结果的精度。
智能问题被转换为了数学(统计学)问题,数学问题再被转换为大数据问题。算力的提升,数据的累计,量变终会累计为质变,在新的基础条件下,研究者发现机器学习技术能够很轻松的突破之前的技术瓶颈,同时具有很强的普适性,机器学习尤其是深度学习开始大力发展,AI出现了很多可以落地的实际应用。
2009年,西北大学智能信息实验室的计算机课学家开发了Stats Monkey,一个无须人工干预能够自动撰写体育新闻的程序。2011年,一个卷积神经网络赢得了德国交通标志检测竞赛。机器正确率99.46%,人类最高分为99.22%。2011年,IBM超级电脑沃森在美国老牌益智节目“危险边缘”(Jeopardy!)中击败人类。2012年,吴恩达在谷歌成立了“Google Brain”项目,这个项目利用谷歌的分布式计算框架计算和学习大规模人工神经网络,然后6月份发现神经网络能够识别出一只猫的形象。2014年,谷歌汽车在内华达州通过自动驾驶汽车测试。