拥抱Web3.0【1】
在1989年,当Tim Berners-Lee开发HTML和HTTP协议时,只是想为同行们提供一种通过共享信息的方式,这使得他成为 “Web之父”。Web的推广开始并不顺利,因为此时人们看到的内容非常单调。直到1993年, Marc Andreessen等人开发成功第一个被广泛用于阅读 HTML的游览器Mosaic,点燃了Web发展的熊熊烽火,让互联网走入了普通人的生活。
Web的迅猛发展超乎先驱者的预料,当时许多的主机服务商们建立了无数静态网站,提供了丰富的信息供人们访问,这就是所谓的Web1.0时代;随着服务器页面技术的出现,动态站点使用户能够向服务器提交信息以此进行交互,而Blog则让用户成为Web信息的主要来源,Web成为了世界上最大的数据源和知识库,这就是所谓的Web2.0时代。
在向Web欢呼之后,且慢,我们来审视一下自己遇到了什么问题?以及该如何解决问题。很多信息领域的大师们都在告诫我们一个事实:随着Web和数据采集技术的发展,虽然我们已经拥有了天文级别的数据,但我们仍陷入数据缺乏的恐慌之中;面前是一座金山,我们却难以挖掘出想要的宝藏。
我们不是有Google等伟大的搜索引擎吗?它不是孜孜不倦地为我们提供信息检索服务吗?是的,但让我们来研究一下这种基于关键词的搜索方式,就会发现很多不足之处:当我们输入“北京”一词时,搜索引擎只会返回包含了两个字的页面文档链接,而忽略我们本来的意图——我们想知道北京的地理位置、气候、风土人情和其它情况。这种低精度的搜索方式是“关键字”机制的产物,这使得我们的数据寻找和挖掘过程非常困难,有时甚至是无功而返。诚然,我们可以通过多次搜索来逐步获得想要知道的信息,但这需要耗费大量的人工来对Web页面进行判读。让我们再看另一个事实,随着电子商务的迅猛发展,大量Web服务开始为我们的生活提供服务。当我们想要旅行的时候,可以通过编写一个应用程序的方式组合Web服务来购买机票、预订酒店和安排旅程。同样的问题是,我们该如何找到这些服务呢?当这些服务接口改变时,我们该如何让程序更智能地适应变化呢?我们仍然需要大量的人工来完成这一任务。
这莫过于一个巨大的讽刺:在代表智能化的Web上,信息检索却要耗费大量人力来完成。这个悖论的根源可以一直追溯到HTML上,请记住,HTML是为了让“人”而不是“机器”来阅读信息的!当无数存放在关系数据库中的结构化数据在Web文档中出现时,已经成为了非结构数据,即页面文档只关心它的布局、字体等CSS信息,而这个数据代表了什么含义?Web已经忘记了!既然Web并不知道某个词汇所表示的含义,那么,要对这些词汇进行自动化处理,自然成为一种奢望。
怎么样才能让Web上的信息能够被计算机“理解”,从而开发出“智能代理”工具帮助人类完成海量数据中的信息挖掘呢?方法可能有很多种,其中之一就是从现在开始,以一种机器能理解的方式来对Web上的知识进行重新组织,即让数据重新带上语义,这就是我们所谓的“语义网(Semantic Web)”。
2001年, Tim Berners-Lee在《科学美国人》上发表了《The Semantic Web》一文,介绍了Web所面临的困境、解决的方式,并通过不同的视角阐述了语义网时代该有多么精彩和智能。他将语义网又称为“Web3.0”,它是目前Web的继承发展而非对Web的抛弃。语义网又被称为数据网(The Web of Data),即其重心是数据的结构化组织、存储、推理和查询,当这些结构化数据成一定规模后,依靠“智能代理”,将能在最少人工干预情况下,查询和挖掘想要的知识。
但是,对于语义网是否就意味着Web3.0,目前的学术界仍然有不同的看法,尤其是在物联网和传感器网络等技术出现以后,这种争论更加激烈。但无论如何,我们仍然可以说,Web数据的结构化和处理自动化是Web发展的必然方向,在这个意义上,语义网是Web3.0这个概念的有力竞争者,至少,也是最重要的组成部分。
Related Items
Comments
Leave a comment
Or, take a look at Archives and Categories