http://blog.memect.cn/?p=3000
作者:鲍捷,文因互联CEO
序
Tim Berners-Lee昨天拿到了2016年度的计算机科学最高奖:图灵奖。他获得这个奖,实至名归。领域中人一直都认为他得奖只是时间问题。
Tim 的一生有两个伟大的贡献(当然,他还有很多其他的贡献):一、互联世界的文档,即万维网(Web)的发明及其规模化的努力,包括 W3C 的工作;二、互联人类知识的努力,包括语义网(Semantic Web)、互联数据(Linked Data)、开放数据(Open Data)、知识图谱(Knowledge Graph)等。第一个贡献已经广为人知,第二个贡献还在发展中,知道的人不多。但是我以为,第二个贡献将会是比第一个贡献更大的贡献。
Tim 也是一位伟大的思想家。他总是从全人类的角度去思考技术问题。普通的设计师从 user 的角度思考问题,伟大的设计师从 human 的角度思考。而 Tim Berners-Lee 是从 humanity 的角度去设计。 ????可以毫不夸张地说,Tim Berners-Lee 是当今人类神经系统的总设计师。他的工作,在推动历史的进程。他领先于大多数的工业领袖至少十年在进行布局和推动。他又善于组织和影响,对于学术界和欧美政府的最高层,他都能施加影响一步步地推进具体的实施。
Tim 说过,Web 从来不仅是技术的发明,更多的是一种社会的创造。无论是 HTTP 还是 PageRank,无论是 Wiki 还是 Facebook,人的因素是主导因素。开放、交流、合作,新一代的 Web 的技术,必然还是要以人的需要、长处、局限、价值为出发点。技术只是一小部分,社会模式的变迁才是最根本的。
在 RPI、MIT 和 W3C 工作期间,笔者有幸近距离和 Tim 一起工作。 Web 和 Semantic Web 是如何兴起的?Web 的未来是什么?我们遇到的困难和可能的出路是什么?今年1月笔者曾在人民大学做了一次演讲。本文基于这次演讲,简单回顾了 Tim 当年对 Web 的设想,和 Web 从文档互联走向知识互联的历程,并对未来做了一些猜想。
一、WEB作为杀手级应用
什么是杀手级应用?Wikipedia 上的定义说,杀手级应用就是说它能够使这个应用或技术,从小众走向大众,极大地提高它的使用人数的应用。
随便举几个杀手级应用的例子: ATM 机,跟 Web 和人工智能没关系,但是我们可以想一想,这是什么技术的应用?数据库技术和网络技术。若我们抽象地向我们的外婆解释,什么是数据库?什么是网络?她根本听不懂;但是如果你说这有一个机器,你把一张塑料卡片给它,它把钱给你,可能就听懂了。这就是杀手级应用。
那还有什么样的杀手级应用?Visicalc 有多少人听说过?70 年代末兴起了电子表格技术,电子表格技术是什么?从纯技术角度,可以说电子表格没有解决什么实质性问题,电子表格能解决的所有问题,数据库都能够解决。70 年代初已经有数据库了,那到了 70 年代末为什么又有了电子表格呢?我们想,一个只有初中文化水准的文员,他能够用好数据库吗?那么在 70 年代末兴起的这个电子表格,它要解决的不是面向机器的问题,是面向人的问题,他把原来只有极少数的写 SQL 能够享受到的对数据管理的快乐,让千千万万只有中学文化水平的人,也能够用到。这是电子表格的意义,所以后来有了 Excel。现在电子表格已经成了百亿级的一个大产业。
那么再看另外一个,这个是什么?
这是世界上第一个图形界面的浏览器。第一个 Web Server 是 1990 年 Tim Berners-Lee 在 CERN 写出来的,那个时候已有一个浏览器,但是那浏览器是命令行的浏览器( line by line 的 browser),那种浏览器是只有非常少数的人可以用的。到了 1992 年的时候,另外一个工程师写出来这个浏览器 Erwise,图形界面基于 X-window 的。到了 1993 年的时候,有了 Mosaic 后来演变成了 Netscape,这也是一个杀手级应用。
我们想一下,实际上 Internet 并不新,60 年代就已经有 Internet;超文本也不新,80 年代就已经有了超文本,但为什么一直到了 1994 年(那年全球也只有 3000 个网站),Web 才真正成为一个现象级的工具?因为在这之前没有这样的杀手级应用。Browser 就是这样的杀手级应用,所以说我们看 1993 年有了 Mosaic,1994 年就有了 Amazon,这不是偶然的,这都是杀手级应用对一个领域带来的冲击。
当我们回来看 Web 本身,它也是一个杀手级应用,实际上 Web 是因特网( Internet) 的一个应用,但现在在大众媒体上,可能大家不会区别。大家都说“互联网”,大家谈互联网的时候,通常实际上在谈万维网(Web)。那么底层的从数据链路层,到 IP 层,到传输层到表现层,大家在日常的媒体中是不会看到这些区别的,Web 只是最上面的这么一些协议:HTTP,HTML,URI。这三个协议构成了 Web的基础。
Web 本身是怎么产生的?实际上这些技术在 Tim 发明 Web 十几年之前都已经有了。为什么到了 1991 年的时候,才出现 Tim Berners-Lee 这个人把它们汇总在一起呢?
这个我们现在看到的是号称是世界上第一个 Web Page。这是在大概 1990 年圣诞节的时候, Tim Berners-Lee 在他自己的个人电脑上写的。当时这个 Web 只有他自己那一台电脑在看。从他写了第一个 Web 页面,到后来欧洲原子能组织内部,他花了差不多一年时间,说服所有人来用 Web。大部分人都不相信那个东西有什么价值。后来他又足足花了两年的时间,到全世界各地去做路演,才有非常少的人相信这个东西是有价值的。
TED 上有一个演讲——我是怎么拒绝 Tim Berners-Lee 的,就是有一个人在一个会议上,遇到了 Tim Berners-Lee,Tim Berners-Lee 告诉他,你现在做的东西(百度全书应用)很好,你应该把这个百度全书应用和因特网结合在一起。他很困惑,他说我为什么要把这个东西和因特网结合在一起,这会有任何价值吗?(相关TED Talk 链接:Ian Ritchie 我是怎么拒绝 Tim Berners—Lee ? ;Tim Berners-Lee ) 这不是一个偶然的例子,如果你去看《Weaving the Web》这本书的话,书里讲了很多。
二、WEB的三个目标
一个新的技术在刚刚诞生的时候,都是不完备的,绝大多数人在那个时候,是没有办法理解这个技术能带来怎样颠覆性的价值。Web 是这种,Semantic Web 是这样,知识图谱也是这样,所以我们在这个发展的过程中,经历了很多被人瞧不起,被人认为没价值的日子。这本书我强烈地推荐大家每个人都去看一看,不仅仅是研究 Web 的人要看,我认为这本书对于人工智能的研究,对于互联网的工程师、产品经理、运营经理,也是有很大的意义的。
我看完这本书就思考一个问题,什么叫知识?知识是怎么产生的,如果我们想构造一个知识的互联的网络,或者知识的管理的网络,最重要的事情是什么?Tim Berners-Lee 的答案就是互联、开放和自由。这本书也有中文版 《编织-万维网之父》,这本书已经绝版了,在淘宝上有卖的。
Tim Berners-Lee 在这本书里,讲了他在1990 年的时候——实际上 是1989 年——在一个 proposal 里面讲了三件事情,当时他很乐观,他认为给他六个月时间,他可以把这些事情都干了。事实是已经过去 25 年了,这些事情还没有做完。这三件事情是什么呢?
第一件事情就是一个互联的文档的 Web,一个 Document Web,这件事情他确实做完了,然后之后又花了 15 年时间去完善。
第二件事情叫 Semantic Web,我们每一个文档背后实际上都承载着人的知识。我们如何让这个文档不仅仅被人来阅读,而且也可以被机器来阅读呢?知识是什么,知识是一种结构,当我们有一种机器可读的结构的时候,我们实际上就有了一个知识的网络。
从 1999 年开始,他开始力推 Semantic Web。到了 2001 年的时候,他和 Jim Hendler,Ora Lassila 一起,在《科学美国人》上面发了这篇文章阐述了一个理念,如果我们有了结构化数据,用知识去标注的网络应用的能力话,我们能够实现怎样神奇的一些应用。实际上他描述的很多东西,我们现在已经实现了,比如像 Siri,IBM Watson, 就是 Tim Berners-Lee 在十几年前就已经描述的一些设想。当时认为是科幻,现在已成现实。
他 proposal 的第三部分,说我们有了知识以后还要怎么样?最重要的是人,Web 在往前走的每一步,它核心的思考,它真正能够带来的知识和最有价值的数据,不是机器,而是人产生出来的。所以如何让机器、人、知识能够关联在一起,这是 Tim Berners-Lee 最主要的思考。他在设计里面提出来,我们不但要能够读这些数据,更重要的是我们能够让人非常容易地去创造这些数据。当时还没有 Wiki 这个概念,但他描述了这样一个系统,实际上就是一个 Semantic Wiki 系统。
我们花了25年的时间,大概实现了他的第一个目标,然后第二个目标实现了一半。所以 Web 只走完了上半场,还有下半场要走。
三、从万维网到语义网
我们在剩下的 25 年时间内,从现在起到 2040 年,要实现另外一半目标。在《科学美国人》这篇文章里面,Tim Berners-Lee 再一次表达了他充分的乐观。我们刚才提到了,他第一次说花六个月时间就可以实现那个 proposal,最后证明他把这个任务的困难程度低估了一个数量级。同样,在这篇文章里,他再次低估了这个任务的复杂程度,他认为我们十年之内就能实现 Semantic Web ,但事实上没有做到。到了 2007 年、2008 年的时候,整个行业的人就已经发现,可能我们要花 30 年的时间,才能实现这个梦想,在 2007 年感觉 30 年后很远,但现在已经到 2017 年了,我们发现其实这个估计是挺*谱的一件事情,我们下面细说为什么这个估计是*谱的。
这是我从 W3C 的前语义网技术负责人 Ivan Herman 的一个 slides 里面偷来的。他是 2010 年讲的,在 2005 年的时候,他认为这个技术已经发展到什么程度呢?就是在前面这种 Innovator 这种层面,到了2010年的时候,他认为已经到了 Early Adopters ,他这个估计应该说是对的。
这样一个曲线对于正常的学科的发展是没有问题的,大家肯定也在其他地方看到过的,叫技术成熟度曲线。一般情况下,一开始一个技术没有什么人知道,过了一段时间之后,大家觉得这个技术太牛逼了,然后到了一个顶点;后来顶点过去以后,到达低谷,觉得你是骗子,大家开始失望,没有人投资了;经过一段时间的冬天,然后后来发现其实也不全然是欺骗,还是有合理的因素的,慢慢往回爬,最后爬到一个 majority,到成熟市场,通常“正常”的技术是这么来爬的。那么对于”正常”的技术,到了这个阶段的时候,就是一次冬天回去之后,往上爬的这个阶段,杀手级应用就会出现了。
但是我们知道人工智能技术不是“正常技术”,人工智能的技术的成熟曲线是这个样子的,差不多每过十年,我们要被人骂一次,我们是骗子。
那么具体来看,对于知识图谱技术,我们已经被人骂了几次。实际上其实这个曲线前面还有几次,我就没有画了,其实从 60 年代开始就有了。我们就从 80 年代开始讲,那时候我们有一大堆叫 Lisp Machine,当时是认为如果我们有了 Lisp,如果我们有了 Prolog,我们可以把整个人类所有的知识都建模。有个公司叫 Cyc,它就是努力想把整个人类的知识全部用逻辑表达出来。到了 80 年代末的时候,日本人被忽悠得很厉害,说我们要有五代机。所以这个时候就产生了很大的一个泡沫,果不其然到了90年代中期的时候,大家说骗子。那个时候的博士生是非常悲摧的。
然后到了 90 年代末,慢慢地又开始往前跑了,当时 Guha 在苹果发明了 RSS,后来 1997 年的时候在苹果发明出来了 RDF。后来到了 1999 年的时候,RDF 成为了行业标准,然后DARPA(美国国防高级研究计划局) 成立了 DAML 工作小组。到了 2000 年前后的时候有了 OWL,整个语义网有了这样一种新希望。大家又开始觉得太厉害了,人类又要毁灭了,但事实证明又不是。所以大概从 2003 年、2004 年往后走,大家发现这个技术没有想的那么牛逼,很多问题解决不了。所以开始往下走。到了 2010 年的时候,虽然我们已经做了非常多的很好的工作,比如 Freebase 这样的工作,但当时基本上 Semantic Web 毕业的博士生找不到本职工作。
四、从语义网到知识图谱
到了 2012 年的时候,突然又开始加速往前跑,以谷歌的知识图谱(Knowledge Graph)的发布作为一个标志。但实际上如果我们抛开媒体对我们的报导,跟这个行业真正的发展其实是没有什么关系的,这个行业的技术是一直往前走的,哪怕在“低谷”的这个阶段,也是有非常多的扎实的工作,在不断地推进。像 DBpedia 这样的系统在 2006 年、2007 年做出来的时候,大多数人压根认识不到它的价值。后来 Watson 发现只有用这个技术,才能够把最后 10个百分点的 precision 提高上去,没有其他任何技术能够做到,这时候这个技术才进入了媒体。但在进入媒体之前大量的工作,一直都在水下酝酿。
这个是 Nova Spivack (Twine、Bottlenose的CEO) 在 2008 年的时候做的一个预测,在 2008 年大家已经发现了,这个 Tim Berners-Lee 的预测是不准的,我们低估了这个任务的困难程度。所以他把 Web 分为 Web 1、2、3、4,Web 2 就是 Social Web,当时发现 Social Web 已经很成功了。他认为到了 2020 年的时候,我们能够实现 Semantic Web。那么现在我们在 2017 年,还有三年时间到 2020 年,我们能实现 Semantic Web 吗?好像也不能,所以他也低估了这个问题的困难程度。他认为 Web 4.0 是 Intelligent Web,我认为这个设想还是比较*谱的,但是对于 Semantic Web 这个规划,还是有点乐观了。
这件事情其实要分为两步来走,要把这个分成 Data 和 Intelligence 两件事情分开来讲。我刚才提到的一个低潮里,不仅仅是那些小公司在这个低潮里面活不下去,大公司也活不下去。并不是说这些大公司垮台了,谷歌、雅虎当时都有很多 Semantic Web Activities,表现是大部分的这些这种项目最终都失败了。比如说谷歌在 2008 年、2009 年,Rich Snippets 这个项目无疾而终——当然到后来有一部分演化成了 Schema.org ,所以不是完全的失败。这样的项目还有非常非常多,包括当时的标准化的努力,RDF 和 OWL 从某种程度上来说是成功的。但是从 2007 年、2008 年到 2010 年的 RIF 和 OWL2,可以说是不成功的。当时的大部分的这些公司最后也都完蛋了,像 Hakia,Powerset,Twine,这些当时这种网红级的公司,最后也基本上没有一个能活到 2010 年之后的,所以在这个时候大家是很被鄙视的。
但是到了 2012 年前后的时候,我们又实现反弹了。实际上很多工作在 2009 年、2010 年就已经开始,比如 2009 年的时候,在 Tim Berners-Lee 推动下,我们有了开放政府数据。2006 年的时候,我们有了互联数据,也是 Tim Berners-Lee 推动的。2010 年的时候我们有了图数据库,我们终于在 RDF 数据库之外,有了另外一个选择。到了2010 年、2011 年是两个标志性的项目,一个是Siri,一个是 IBM Waston 。打了两剂强心针,大家发现这东西真的有用。
到了 2011 年的时候,Palantir 实现了 2.5 亿美元的收入。以前从来没有一个用语义技术的公司,能够做到这一点。大家发现这个东西不仅是技术上有用,在经济上也有用了。Palantir 是一个本体编辑器。现在它的年收入是 20 亿美金。
2012 年的时候这是最大的一件事情,谷歌把 Freebase 给买了之后,改了一个名字叫 Knowledge Graph。谷歌的示范效果是显而易见的。大家一看谷歌用了,所有人都跟着用,微软有了Trinity,当时搜狐、百度国内一堆互联网公司,每一家都开始搞 Knowledge Graph。
2013 年的时候美国这边有了 Kensho,一个金融的知识图谱的应用,到了 2015 年的时候,知识图谱这个词开始变为媒体的宠儿了。2016 年的时候,中国市场上出现各种对话机器人,智能音箱,我觉得可能有上百家,这个背后都是要用到知识图谱。这一块最早应该是 2012 年的时候,出门问问。这样的公司也非常非常多。
五、知识图谱翻身的背后
所以我们现在可以看到知识图谱技术,已经在过去的五年当中,完美打了一个翻身仗。但是冰冻三尺非一日之寒,就是说我们能够从被人鄙视到大家都觉得这个技术有一点用,实际上是这十几年背后整个领域不懈的努力,才有了今天这一点点的成绩。我们今年看到的知识图谱,实际上是许许多多的上千个各种不同的项目,在过去十几年里面,不停实验,最后留下的一点点精华。
比如说上图,Bestbuy 的商品元数据。其实目前这一堆截图,都是我在 2008 年到 2010 年截下来的。但当时做的很多事情,中国现在还没有。其实在每一个领域,我认为在这里面,在中国如果把这个模式复制过来都是有机会的。Bestbuy 它每一个商品描述页,这是我们人看到的页面,那么这是机器看到的页面,它背后有一个 Ontology,叫 GoodRelations。
这个是 Facebook,这是我们大家能够看到的页面,它背后的 Metadata 是什么呢?这个是 Open Graph。这个是LinkedIn, 他的背后有 Microformat 的 Metadata。这个是 SlideShare, 这个背后是 RDFa 格式的 Metadata。这是 IMDb,这背后是另外一种 Microformat 的 Metadata。
这是 Sig.ma,它实际上是一个 Semantic Data Aggregation 的 Portal,目前这个网站已经下线了。对网上能够找到的每一个实体(entity),比如说人、公司,这每一个都是实体,它把每一个实体的数据做了一个聚合,当时这上面有我的一个页面,图例是关于我个人简历的一个聚合。
我们不仅有各种所谓直接创造出来的语义数据,还有各种通过现有的数据,映射过来的数据。
这是我们当时在 RPI 做的一个工作。就是有大量的政府的数据,他们基本上是用电子表格(spreadsheet)的方式来发布的,我们在上面做了各种规划整理的工作,把它变成了 RDF 的格式,然后提高了数据质量。这是它当时的原始的数据格式,就是在美国政府 Data.gov 这个网站上面,美国各个部门,从联邦政府开始,强制公开数据的发布。然后这上面的数据,大部分都是很脏的数据,它背后的各种数据集,基本上是未经整理的。所以在 RPI,我们就做了这样一个整理。Jim Hendler 是领导者,他发挥了对白宫的影响力。丁力是第一个项目经理。Tim Berners-Lee 影响了英国首相,推动了英国类似的项目。
这是 Open Link 这个公司,他们发布的数据库叫 Virtuoso,是它的一个应用,可以把数据库数据变成 RDF。后来在 W3C,也有一个标准叫 R2R,就是 Relational Database to RDF这样一个标准,规范的是我们如何把现在大量已经存在的结构化数据放到网上来。讲一句题外话,当初 Tim Berners-Lee 在发明 Web 的时候,大多数人不相信这个东西有用,他做了两件事情,第一个是他把 FTP 映射到 Web上来了,第二个是他把 CERN 的电话号码本映射到Web 上来了,就是充分地利用现有的数据来 bootstrap 一个新技术。所以刚才提到的从 Excel,从电子表格到结构化数据,把它放在网上,是我们赶超的一些小技巧。我们(文因互联)现在做的,把股转书里面的那些 PDF 文件里面的数据放在网上,其实也是类似的。
这是我今天早上刚刚截的知乎上面的页面。左边是人看到的知乎的页面,右边是机器看到的知乎的页面,这是什么?其实这是 HTML5 的一些 Semantic Annotations。
所以我们看到的绝大多数的网页,只要你用心看看它的 HTML 源代码,你都可以发现背后的 Semantic Metadata,所以从数据的角度来说,Semantic Web 其实是已经实现了。
我就举个更具体的小例子吧,这四个哥们,是我在 MIT 的时候认识的,2010 年的1月份,我们有一个叫 Linked Data Entrepreneurship Program,也是 Tim Berners-Lee 组织的,就是一些学生做一些培训,在三天之内教他们RDF 是什么样子等等,然后让他们去找一个应用,自己去做一些小例子。然后这四个哥们,就做了一个菜单的应用,他说我能不能帮助餐馆,把他们点菜的菜单给放到网上去。听起来好像是个很简单的主意,但他们执行得非常好,这四个人也很有企业家的素质,他们很快就拿到了投资,最后融到了 400 万美元的风投。他们做了两年之后,把这个公司给卖掉了,卖了 8000 万美元,这是我亲眼看到的一个用语义技术来创造财富的例子。
当然这样的例子还有很多,在美国做 Semantic Search 的公司还有 200 家,在每一个垂直领域里都有,这上面列的是一些大公司,但实际上小的公司比这多得多,要多一个数量级。所以我们回过头来看,在 2007 年的时候 Gartner 做了这个预测,他预测到 2017 年,majority of Web pages are decorated with some form of semantic hypertext。这个确实我们已经做到了。
这个翻身的过程中,Tim Berners-Lee 起到了巨大的作用。2006 年的链接数据,2009 年的政府开放数据,W3C 一直发挥的社区引导作用,都是 Tim 直接领导的结果。可以说,除了他,也没有第二个人在领域出现执行偏差的时候,能够发挥这么大的影响力来实事求是地纠正。他不断地总结,在他的 Design Issues 里,不断反思 Web 发展的一些原则性问题。这些思考通常指导着之后多年的实践。
六、五个问题
好,通过这些例子我们学到了什么?在之前的 15 年当中,我们经历了被人鄙视的阶段,我们也在最近五六年里面打了一个翻身仗。那我们现在应该反思一些基本的问题,
第一个问题,就是设计和总结的问题,其实这也是工程领域里可能是一个通用的规则,就是一个有用的有实践价值的系统,通常是总结出来的,而非设计出来的。当在 2001 年的时候,我们去设想基于逻辑的一整套的表现方式的时候,我们是跟现实脱节的。所以那一套东西被现实无情地打脸了。2006 年之后我们从数据出发(在 Tim Berners-Lee 的引导之下 ),自下向上,我们看现实世界能有什么样的数据。Wikipedia 上的 infobox,这是人类现在已经有的行为,我们就把这个 infobox 里面的一些半结构化的数据提取出来变成 DBpedia,DBpedia 后来被应用到其他产品里面去,提高了问答系统的效率,这是自底向上由我们总结出来的,而不是谁一开始设计出来的。好的东西都是总结出来的而不是设计出来的。
第二,面向Semantic,还是面向Web?这也是一个典型的学派之争。在 Semantic Web 这个领域里面有面向Semantic和面向Web这两个学派,Jim Hendler 有一个很著名的演讲叫 Two Towers,一个是 Semantic Tower,另一个是 Web Tower。到底什么是新的东西?Frank van Harmelen 说:The novel part of the Semantic Web is not the Semantics, but the Web。只有 Web 是我们加入这个领域的,什么是 Web?Web 就是互联,就是资源的互联和流通,而不是知识表现。如果我们现在去看知识图谱的话,观察的重点不应该是所谓的分布式表示、机器学习、深度学习,也不应该是所谓的逻辑表达,这些都很重要,但不是这个领域最关键的问题。这个领域最关键的问题是,如何能够让知识在网络上流动起来,如何让人能够更方便的去应用知识、去表达知识,这才是最重要的,人才是这个领域最重要的东西。这就是 Web,Web 是人不是机器。
第三个就是面向方法,还是面向问题? Semantic Web 或者知识图谱,到底是一堆 formulas 还是 questions?我们到底是拿着锤子去找钉子,还是我们现在已经有一个需求。我们要的需求是什么,是钉子吗?不是,我们的需求是墙上的洞,这才是我们的需求。所以我们要面向需求去解决问题,而不是面向我们现在的方法来解决问题。当我们在面向问题的时候,我们发现要解决任何一个问题,都不是一种方法能够解决掉的。我们回去看 Siri 或者 Watson 的整个架构里面,是用了人工智能的多种方法,综合在一起取长补短才解决了这个问题的,没有任何一种单独的方法,无论是统计的方法,深度学习的方法,或者逻辑的方法,可能解决我们现在面临的问题。只有三种方法综合起来之后才可能。我经常会遇到有人会问我这个问题,他说:我现在要做一个知识图谱的应用,该不该用图数据库。问这个问题本身是第一个危险信号,我是不是该用图数据库是第二个危险信号。如果要从这种角度来问问题的话,那么这个项目 90% 会失败,因为它不是从问题出发,而是从方法出发。这是我们一定要避免的风险。
第四个就是面向大问题还是小问题。我们一开始想的其实都是一些大问题,语义搜索是一个很大的问题。当然我们一开始讲设想,就像 Tim Berners-Lee 在《科学美国人》那篇文章里面所设想的问题,实际上是非常大的问题,作为一个领域的规划这是必要的。但是当我们在实践的时候,我们难以从很大的问题入手。我最近也跟一些公司的人聊过,他们的这种项目大部分最后都是干了两年、三年之后无疾而终,包括我同一期的那些同学们、同事们就是在 2006 年、2007 年、2008 年毕业的那帮博士们,他们进了公司之后,大部分当然是转行了,但有少部分很幸运的,去到一些公司,它们说我们有个 Semantic Web Group,然后我进去做了,两年或者三年之后,这个组就解散掉了,为什么?你想一个企业,它一个 VP 升职的期限是多少?两年到三年。他两年到三年之内不成功,必须滚蛋。如果是一个大项目,它不能够为这个企业的主营业务上创造收入的话,是不可能持续下去的。国内也有一个非常大的一线互联网公司,要做金融知识图谱。去年年初的时候,从券商招了一个朋友过去,很兴奋说有 30 个人做这件事情,到了年底的时候,回来很沮丧地说,这个项目解散了,只剩下5个人,做不了。因为一年之内没有办法创造收入。那么当我们开始去做一个大的项目,面向一个大问题的时候,我们就会不可避免地遇到这种创新者的窘境。Semantic Web 技术是一个颠覆性技术,它很难从一个大的通用的系统开始,它一定是从非常小的,从几个人就可以做的事情开始,所以我们要面向小任务,而不是大任务来做。
最后一点,如何赢得人心?我从学术界出来进入企业界的时候,我感受到的最大的刺激是什么?就是钱的多少。当我们在学校里面的时候,比如说我们花很长的时间写个 proposal,成功率是多少,在美国的自然基金委员会项目是二十分之一,能拿到多少钱?30万美元,才两百多万人民币,现在国内的一个刚毕业的小孩,他可能一个天使项目就一千万人民币了。这个区别在哪里?我觉得一些科学家在某种程度上来说,缺少了 show 的能力,All business is show business。我们这种 Semantic Web 或者知识图谱这种领域,不是一个完全的科学的领域,而是一个应用的领域。如果我们不能够面向 VC, Funding Agency,或者大众解释清楚,用一些好的项目来做好 PR 的话,这个领域是不可能发展起来的。当初 IBM Watson 在开始做的时候,实际上他们玩了很多小花招,比如说他们做出来之后,他们找谁去做测试呢?国会议员,他们请国会议员来跟他们的系统来一起进行 PK,然后赢得了国会议员。实际上这是个非常好的 PR。Tim Berners-Lee 当初推广 Web 上花的力气,要比他开发 Web 多多了。他后来推广语义网,去 TED 大喊“Raw Data Now!”,也是充分发挥了“show”的能力。要向 Tim 学习。
七、WEB的下半场
这是上面我思考的五个问题。其实还有更多的问题,因为整个领域往前发展,虽然已经过去25年了,但未来还有很漫长的路,从 Tim Berners-Lee 一开始的设想,到我们最终把它实现,这种互联整个世界的知识的愿望,可能还要经过一代人的时间,等到今天的很多年轻人的孩子也像你们这么大的时候,我们能够实现这个愿望。
我把 Web 从 1990 年开始的 50 年的历史,分为 5 个阶段,或者说五代,如下图。
前面这 2.5 代 Web,我们可以说已经实现了。就是第一代的 Web,文档的 Web;第二代的 Web,社会 Web;还有半个 Data Web,现在以知识图谱的方式。
这里我要稍微吐一点槽,我觉得 Social Web 这个词,中文里头把它翻译成社交网络是不对的。因为 Social 反映的是社会,它不仅仅是社交关系,而是整个社会生活的映射,它不仅仅是人和人之间谁认识谁这样一种关系。这是 Web 从文档走向真实社会的第一步。后面这 30 年时间,我们都将不断地深化这个过程。
过去的这几年,大家听到的最多的一个词是大数据。大数据和 Web 的结合,就产生了这样一个 Data Web。我们的数据已经多到了人力完全没有办法处理的程度,所以说我们才需要用机器来帮助我们提高效率。比如说今日头条是什么,今日头条就是文档的过滤,文档的分发,这个是我们要用机器来做的。我们最近也在和一些社区合作,用人工智能的技术,来帮助社区进行管理,进行各种社区的信噪比的提升。所以这是机器可以帮助我们很好地完成的,比如说像搜索,谷歌和百度现在都有他们的 Semantic Search。又比如说像动作代理的形成,Siri 就是这种。还有智能音箱也是这样一种个人代理,像 Amazon 的 echo。在金融上,我们可以有自动化报告、智能投顾。所有这些东西都是在有了结构化数据之上,我们可以进行的一些自动化。
再下面一步,我们自动化之后就是智能化,在自动化这个层面上,我们用比较学术化的话来讲,就是我们可以处理好这种实体的,属性查找和短程关系的查询,在这个层面上,是 2020 年之前我们能够完成的事情。但是我们想真正做好长程关系的查找,包括规则的建模,包括策略的建模,包括真正的所谓语义级的这种自然语言级的问答,我觉得两三年时间,三四年时间肯定是不够的,肯定还要十几年的时间,到 2030 年的时候,可能能实现这一点。那到了这一点我们就有了 Intelligent Web。我们现在做金融应用,我们的设想就是到了 2030 年的时候,真正的那些高级的分析师,他们一半以上工作都可以被机器取代了。
最后一步就是走到了 2040 年的时候,我把它称为 Meme 的网络,实际上也就是 Tim Berners-Lee 讲的社会机器,就是把整个人类社会的知识能够互联在一起存在。
这里涉及到一个概念叫 Social Machine,这个概念是 Tim Berners-Lee 1999 年的时候提出来的。这个概念是说,我们用机器和人在一起构成一个系统,人擅长做什么呢?人擅长做有创造性的工作,机器擅长做那种机械性的,反复的简单重复劳动。我们把人和机器在一起构造成一个完整的系统,叫 Social Machine。上面这本书是 Tim 的好友、我的导师 Jim Hendler 写的新书《Social Machines》,具体阐述了他的思考的落地。在长期,文因互联就是一家致力于实践 Social Machine 的公司。
这个图总结了我上面所说的,在我看来 Web 分为五个阶段,对应于 Tim Berners-Lee 讲的三件大的任务上。Tim Berners-Lee 大概 30 年前就开始思考这些问题。从他的规划来看,从他当时的 proposal 开始可能要花 50 年的时间,到 2040 年,把整个这样一个愿景实现。
Web 是一个伟大的征程。Tim Berners-Lee 获得图灵奖,不仅是他个人的荣誉,也是对万维网、语义网界千千万万科学家和工程师的认可。Web 的下半场,互联世界的知识,有可能取得比过去 25 年更大的成绩。互联、开放和自由的精神终将冲破一切障碍,融合全人类为一体。
1994 年,Tim Berners-Lee 离开欧洲到美国去建立 W3C。他说:“我知道我必须到互联网的引力中心去”。今天,这个引力中心正在向中国转移。Web 的下半场,中国无疑将发挥更大的作用。