拥抱Web3.0【2】
“Web之父”Tim Berners-Lee设想中的Web3.0网络由庞大的结构化数据组成,这些数据不仅携带了信息,而且还能携带信息的元数据,即信息语义,以此实现不同系统之间的数据通信和互操作。显然地,如果有一种通讯协议或数据结构能够实现这一点,无疑是最省事省力的方法——不同的系统都说着同样的语言,可以最终建成梦想中的“巴别塔”。
电子商务领域对于数据的互操作的要求一直以来最为迫切,在他们的推动下,先后出现过多种数据格式。如XML语言,它的出现曾被寄予厚望,希望能成为跨域“信息鸿沟”的桥梁,尽管XML得到了极其广泛的用途,但它具有本身特有的缺陷,如我们不能保证所有的信息发布者都公开XML的Schema数据,当XML的Schema发生任何细小变化时,一系列处理XML的软件都必须进行调整;同时,XML只是提供了一种表层语法,而没有对文档的节点含义提供明确的的语义约束。后来的XML Schema虽然对XML文档的值类型和范围等进行了描述,但这些问题却没有得到根本性的解决。
人类语言陈述句的“主谓宾”三元组结构非常有特点,这一结构不仅描述了信息(主语和宾语),而且描述了两者之间的关系(谓语),如“中国首都是北京”这句描述,既携带了信息,也携带了信息语义。我们可以将其通过一个三元组结构进行描述:
如果我们将“中国首都”的所有可能属性都通过这种方式连接起来,将会发现无数个三元组构成了一个图(Graph)结构,主语和宾语部分都是节点,而谓语则是图中的边。
三元组模型是语义数据的存储模型,在这一模式之上,有一个数据的描述模式。W3C提供了一种表达数据图形和共享数据图形的标准方式,即RDF(Resource Description Framework,资源描述框架),RDF为三元组添加了许多重要概念,使其更加精确和复杂,同时使得机器之间的语义数据的传输消除了歧义。在语义网中,所有的内容都被称之为“资源”,为了表现资源的唯一性,RDF使用URI来描述资源。语义网中所有的数据,包括模式和原生数据,都存储为RDF格式。RDF结构,直接描述了资源与资源之间,资源与属性值之间的关系,它是一种更富有弹性的数据结构。
那么,语义网的全景图是什么样子的呢?它应该是由无数个节点组成的网络群,每一个独立的网络极为一个概念域,而不同网络之间,也依然存在不同的对应关系或相等关系无数个这样的概念和关系共同组成的语义网络,构成了语义数据网。
将目前已有的非结构数据发布为RDF的过程被称为“Open Linked Data”,目前已经有许多机构在进行这一实践, GeoNames是目前最大的GeoRDF数据源之一,它的数据来源于40余种不同的数据源,已经积累了近800万条RDF三元组数据供用户下载和访问。目前Web上的RDF数据量已经超过数十亿条,但这样的信息量仍是杯水车薪,还不足以建构一个可用的结构化知识库,因此语义网的实用化之路仍然长路漫漫,这也是许多语义网怀疑者的观点所在——难道我们只有在“热寂”时刻,才能获得具有实用性的RDF数据网络吗?!
Related Items
Comments
Leave a comment
Or, take a look at Archives and Categories