2009年12月,弗里德曼和其他制作人员第一次见到“沃森”,当时这台超级电脑与两名人类选手展开对决。“沃森”采用IBM POWER7服务器,能够将所处理的任务实现最优化。IBM表示参加挑战的“沃森”必须快速处理所有任务。此外,这台超级电脑还采用了一系列专利技术,能够让任务和数据处理与信息实时分析同时进行。
法鲁西指出《危险》的本质就是要让技术朝着正确的方向发展。他说:“这档节目涉及的领域很广,会提出各种各样的问题,是我们希望参加的挑战之一。这项挑战是对选手信心的一种考验,你必须在确信答案正确后才回答,此外,你还不得不快速给出答案。”
IBM表示“沃森”采用的技术能够在医疗卫生等很多领域发挥作用,能够帮助提高医生诊断病情的准确性,改进在线自助咨询台,为游客和居民提供相关城市的特定信息,或者通过手机为消费者提供支持。为了备战《危险》,“沃森”曾与前《危险》冠军展开50多次对决。此外,它还参加了《危险》节目组为所有潜在选手准备的测验并顺利通过。
《危险》监制哈里·弗里德曼称,在IBM第一次与《危险》节目组接触时,制作人员均产生浓厚兴趣,但同时也担心观众对“沃森”参加比赛产生分歧,将其视为一个噱头或者花招。他说:“现在态度不同了。这是电脑获取的知识与最优秀的《危险》选手获取的知识之间的一种较量。这是一场重要的比赛,我们都希望参与其中。” 沃森由90台IBM服务器、360个计算机芯片驱动组成,是一个有10台普通冰箱那么大的计算机系统。它拥有15TB内存、2880个处理器、每秒可进行80万亿次运算(这是目前的情况)。这些服务器采用Linux操作系统。IBM为沃森配置的处理器是Power 7系列处理器,这是当前RISC(精简指令集计算机)架构中最强的处理器。它采用45nm工艺打造,拥有八个核心、32个线程,主频最高可达4.1GHz,其二级缓存更是达到了32MB。存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》(World Book Encyclopedia)等数百万份资料。每当读完问题的提示后,沃森就在不到三秒钟的时间里对自己的数据库挖地三尺,在长达2亿页的漫漫资料里展开搜索。
沃森是基于IBMDeepQA(深度开放域问答系统工程)技术开发的。作为沃森超级电脑基础的DeepQA技术可以读取数百万页文本数据,利用深度自然语言处理技术产生候选答案,根据诸多不同尺度评估那些问题。IBM研发团队为沃森开发的100多套算法可以在3秒内解析问题,检索数百万条信息然后再筛选还原 成 答案输出成人类语言。每一种算法都有其专门的功能。其中一种算法被称为嵌套分解算法,它可以将线索分解成两个不同的搜索功能。
沃森超级计算机与谷歌搜索引擎相比究竟谁更智能?对于这一问题,美国《商业周刊》前科技编辑史蒂芬·贝克尔近日通过分析和比较后认为,沃森超级计算机比谷歌更智能。贝克尔认为,答案很简单,谷歌现在还不能回答问题。谷歌以两种方式信赖于我们人类的大脑:首先,在描述用户的查询请求时,谷歌会让用户像计算机一样去思考,挑选出三或四个最符合计算机意图的消息,形成一个查询结果列表。其次,谷歌会将用户引导到与所查询的答案类似的答案上去,让用户花更多的脑力去发现所需要查询的确切答案。而沃森超级计算机则是自己处理所有问题。它必须要解码复杂的英语,穷尽所有可能的答案,并选择其中一个,最终判定它是否足够符合要求。 对计算机沃森来说,挑选出合适的语境是一项艰巨任务,尤其是在充满暗示和恶作剧的游戏里,而且它还必须确定答案的可靠性以及它是不是需要冒险去猜。沃森需要识别人类的语言,并从中分析微妙的含义,讽刺口吻、谜语、构词断句、诗篇线索等等这些逻辑和线索,并通过一系列的数据比对和模拟人类的联想能力得出精准的答案,再反向用人类的语言回答出来。此外,沃森还能模仿人类针对问题进行策略考虑,例如问题的挑选、是否略过不擅长的题目,还会模仿人类的口吻搞笑整个过程仅有计算机和软件算法完成,没有工程师参与(这种快速问答,其实也参与不了),也与互联网断开因此计算机不能作弊,必须自己想。
领导设计沃森 的IBM 研究团队的科学家David Ferrucci 博士表示:经过四年的努力,我们的科学团队相信沃森已经能够快速理解《危险边缘》问题的内容,分析它需要获得的信息,得到精确的答案,并给出可信的回答。沃森会估计《危险边缘》节目组剩下的奖金数额、自己比其他对手落后或领先多少、自己在特定类别的题目上的表现,及时调整自己的信息级别。如果沃森落后对手太多,它的信心级别会较低,例如40%,这时它仍会继续努力;不过在领先对手时它也会想:我已经领先那么多了,为什么还要冒险呢?因此,即使它的信心值是75%,它也有可能会选择不回答。
在开发沃森的四年间,研发团队主要以两种方式评估这套系统。首先,他们以成批的方式(如每次3000个问题)进行大规模测试以评估系统性能,实施错误分析,提高系统性能。基于这种多问题的表现可以从统计学角度作出重要的性能评估;其次,该团队评估沃森的第二个方式是,与《危险边缘》以前的参赛选手进行陪练比赛。在2009年冬天,他们与曾经出现在《危险边缘》的选手进行了79场比赛,在刚刚过去的秋天,沃森与获得过《危险边缘》比赛冠军的选手进行了55场对决。这些陪练比赛让研发团队对沃森的性能有了深入认识。 《危险边缘》是哥伦比亚广播公司益智问答游戏节目,已经经历了数十年历史。该节目的比赛以一种独特的问答形式进行,问题设置的涵盖面非常广泛,涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索,参赛者必须以问题的形式做出简短正确的回。与一般问答节目相反,《危险边缘》以答案形式提问、提问形式作答。参赛者需具备历史、文学、政治、科学和通俗文化等知识,还得会解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂思考。
沃森的设计初衷则是要理解更为复杂的词句、语言和人类知识。IBM科学家、沃森团队的负责人大卫·费鲁奇(David Ferrucci)表示,利用《危险边缘》去开发计算机系统将推动技术向正确的方向发展。他表示: 节目会问各种问题。这同时涉及到信心,当你认为你的答案不正确时不要回答。你还需要很快地做出判断。IBM表示,赢得《危险边缘》比赛并不是主要目的。通过沃森的技术,医生可以更快地诊断病例,法律工作者也可以更快地研究案例。《危险边缘》执行制片人哈里·弗里德曼(Harry Friedman)表示:这些很重要,我们希望成为其中的一部分。 北京时间2011年2月17日,人机大战最终成绩出炉:电脑沃森狂胜人类。由IBM和美国德克萨斯大学联合研制的超级电脑“沃森”(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者。
在第三天的比赛中,IBM的超级电脑沃森获得了41413美元的分数,而两位人类选手肯·詹宁斯(Ken Jennings)和布拉德·拉特(Brad Rutter)分别仅获得了19200美元和11200美元。
将三个比赛日的成绩相加即可得出最后的总成绩,沃森也是大幅领先于人类,最终成绩上,沃森达到了77147美元,肯·詹宁斯排名第二,但只获得了24000美元,而布拉德·拉特获得了21600美元,排名第三。
在第三比赛日的比赛中,沃森一路领先,以至于在进入最终的Final Jeopardy环节前,人类选手超过沃森的几率已经几乎不存在了。
在Final Jeopardy中,排名第二的肯·詹宁斯已经放弃追赶沃森,而选择保住第二的位子,因此他仅赌了1000美元,排名第三的布拉德·拉特则放手一搏,压上了他所能赌的最大赌注——5600美元,而沃森再一次暴露了他是非人类的本质,赌了17973美元,这和人类正常赌的整数大相径庭。 美国哥伦比亚大学医疗中心和马里兰大学医学院已与IBM公司签订合同,两所大学的医疗人员将利用沃森更快、更准确地诊病、治病。它的海量信息库中存有许多发表在期刊上的专业论文,可以让医生利用最新科研成果治疗病人。
想要让沃森真正成为医生的得力助手,还需要对它进行改进。医生需要的不只是一个答案。而且有时病人提供的信息不准确或相互矛盾,这就需要医生利用丰富的经验进行判断。IBM研发小组接下来的挑战是,让沃森多提供一些假设情况,研发小组至少还需要两年才能完成这一任务。 ?14年前,IBM研发的计算机“深蓝”(Deep Blue)战胜了国际象棋冠军卡斯帕罗夫;现在,这家公司以创始人Thomas J. Watson名字命名的计算机,继续着对人类智能极限的挑战。
IBM长于制造各种复杂的机器,除了服务器还有这种智能计算机(小型机的集群),它看起来可不仅仅就像那句有点讽刺意味的流行语说的那样—IBM,不是个生产哲学的公司吗?
在1960年代人工智能的技术研发停滞不前数年后,科学家便发现如果以模拟人脑来定义人工智能那将走入一条死胡同。现在,“通过机器的学习、大规模数据库、复杂的传感器和巧妙的算法,来完成分散的任务”是人工智能的最新定义,这早已经取代了曾经甚嚣尘上的“重建大脑”。
按照这个定义,沃森在人工智能上被认为又迈出了一步。“深蓝只是在做非常大规模的计算,它是人类数学能力的体现,”IBM中国研究院资深经理潘越告诉《第一财经周刊》,他同时参与沃森项目,负责提供数据支持。“当涉及到机器学习、大规模并行计算、语义处理等领域,沃森了不起的地方在于把这些技术整合在一个体系架构下来理解人类的自然语言。”
如果这些解释有点晦涩难懂的话,那么可以参看一下《危险边缘》的游戏规则,你便知道沃森的价值何在。
《危险边缘》是哥伦比亚广播公司一档长盛不衰的电视问答节目,自1964年开始播出,最精彩的地方在于游戏里的问题包罗万象,几乎涵盖了人类文明的所有领域。它的规则是答对问题可以获得奖金,答错就会倒扣。
对人类来说,规则很简单,但对沃森来说,则意味着众多挑战。首先沃森必须要听懂主持人的自然语言,这是深蓝不具备的;其次是沃森需要分析这些语言,比如哪些是反讽,哪些是双关,哪些是连词,随后根据关键字判断题目的意思,沃森进行相关搜索,并评估各种答案的可能性;最后选择三个可能性最高的答案,当其中一个可能性超过50%后,程序启动,沃森按下抢答器。
这些得以实现靠的是90台IBM服务器、360个计算机芯片驱动以及IBM研发的DeepQA系统。IBM为沃森配置的处理器是Power 750系列处理器,这是当前RISC(精简指令集计算机)架构中最强的处理器—这些得以支持沃森最终得出可靠答案的时间不超过3秒钟。
沃森主打的是小型机的并行运算。IBM在大型机上的地位很难撼动—在小沃森(创始人老沃森的儿子)执掌IBM时期,IBM投入约60亿美元,这笔超过当年NASA的研发经费,最终把日本的NEC与法国的克雷排挤出去,奠定了IBM在大型机市场的垄断地位。
“在IBM的内部员工培训上流传着一句笑话,那便是在大型机领域,有97%的市场份额来自IBM,剩下的3%来自淘汰的IBM二手大型机。”IBM服务器销售部门前负责人告诉《第一财经周刊》。
IBM试图把大型机上的优势带入到小型机领域。沃森主打的正是IBM的销售新星90台小型机的并行运算,“IBM小型机的运算速度是突出的,”上述IBM员工评价说,“因为它把大型机的CPU研发优势直接移植到小型机上来了。”
IBM是为数不多的可以有能力独立开发小型机CPU的厂家,IBM还将这些技术出售给了除英特尔以外的芯片制造商。
现在,在小型机市场上,IBM与HP的市场比例大致为2:1,另外一家小型机公司SUN则现在主要针对低端市场。
此外,IBM的全球研发团队的某种模式也加大了沃森赢得比赛的可能。
这些团队分工极为细致,比如以色列海法团队负责深度开放域问答系统工程的搜索过程,日本东京负责沃森在问答中将词意和词语连接,IBM中国研究院和上海分院则负责以不同的资源给沃森提供数据支持,还有专门研究算法的团队以及研究策略下注的博弈团队等。
“我们就好像是每个不同的虚拟部队,每个人只做自己最擅长与熟悉的那部分。”潘越称。
事实上这便是IBM的特色,它一直遵循工业时代的成功模式,比如这种制造企业更为擅长的流水线模式,并且通过给员工分级打分的奖惩制度,让它的各个团队都更有效率。
这些研发天才开发的DeepQA系统保证了沃森可以具备崭新的人机交互模式,比如可以理解并分析自然语言,事实上,对自然语言的理解也一直是IBM研究机构在人工智能上的强项。
这很像科幻电影里的桥段—为了隐秘的机器人开发计划,在全球招募天赋异秉的人士。所不同的是,IBM的意义显然更为实际。
此前,基于深蓝研发的AIX操作系统让IBM在商业运用与政府部门中取得了大量的订单,IBM也希望可以将沃森的DeepQA系统运用于医疗服务、咨询等领域之中。
“沃森的优势是给出准确与可靠的答案,因此可以为医生提供更适合病人的解决方案。“潘越称,“在医疗领域的应用将是沃森商用最主要的领域。”
沃森项目如果想在医疗行业推行的话,还需要面临法律层面的问题,IBM一位研究员称,“如果沃森诊断出错,而医生又听从了错误的诊断,那么沃森就会面临被患者告上法庭的危险,这对IBM而言是一个正在考虑的应用问题。”
对于IBM来说,沃森未来不仅要继续挑战人类智能的极限,还要帮助这家公司去同亚马逊、谷歌、微软们竞争,争夺未来科技制高点的主导权。