Archive for the ‘linked data’ Category

什么是“关联数据”(定义进阶)?

星期三, 十二月 1st, 2010

以下针对不同知识背景的读者,分别给出了不同详略程度和专业程度的解释,供参考(并请提出意见):

1、普通网民(知道如何上网,希望对一些网络知识做一般性的了解)
关联数据是一种由国际互联网协会(W3C)推荐的数据规范,用来联接和发布各类数据、信息和知识,使互联网上的服务器能够基于内容进行检索而不是简单的全文检索(文字相同但含义不一定一样,会检出很多不准确不相关内容),从而更准确地分享和关联信息。

2、普通图书馆员(非IT相关专业大专或本科毕业,能利用网络查找信息或为读者提供服务,懂得MARC是一种元数据)。
关联数据是按照一定方法发布的数据,它直接以每个数据的网址作为它的名称(即其中只包含字母数字和左斜杠),并且数据不是一般的网页文件,而是由字段组成的元数据记录,字段描述中通常包含到其它数据的链接。

3、资深编目员或中级职称以上自动化系统管理员(长期从事编目工作或ILS维护工作,了解国际编目规范和图书馆相关技术的最新进展,参加过元数据相关知识培训或从事过相关研究)。
关联数据是按照一定方法发布的数据,它直接以每个数据的网址作为它的名称标识(即名称中只包含字母数字和左斜杠),并且包含以RDF/XML格式描述的元数据信息。由于RDF数据里包含了指向其它RDF数据的链接,因此能形成富含元数据信息的数据关联。

4、Web应用开发人员(具有IT知识背景,熟知最新Web技术,参与过Web应用的开发)
关 联数据是任何资源在万维网上发布的一种方式,以HTTP URI方式链接到一个以RDF/XML编码的数据对象,而不是一个其它任何格式的文档。其中URI决定了数据的唯一性和“可关联”性,RDF确立了数据的 语义和链接的实体。RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“空节点(blank nodes)”少使用“普通文字(literal)”,并且包含以RDF/XML格式描述的、规范格式的元数据信息。空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI),文字(Literal)指一个字串值(可以有类型以及语言属性)

5、语义Web研究者(熟知语义Web技术,有志于为互联网带来图书馆的知识服务)
关 联数据是由Web的发明人Tim Berners-Lee提出的一个概念,定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing),从而实现一种 Web上的富链接机制。从本质上看,关联数据是将超文本链接(即文件之间的链接)转变为超数据链接(事物Thing之间的链接)。
TBL认为关联数据是实现Data Web的关键技术,应符合四个原则:

  • 使用URI作为任何事物的标识名称,不仅是标识文档;
  • 使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称;
  • 当有人访问名称时,以RDF形式提供有用的信息;
  • 尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息。
Tags: linked data, 关联数据, 定义, 数字图书馆, 语义技术

Related posts

SKOS不是KOS,Linked Data不是Data

星期一, 一月 25th, 2010

有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:

  1. SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
  2. 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。
Tags: linked data, SKOS, 知识组织

Related posts

几个概念:开放数据,关联数据,语义Web和Web3.0

星期三, 一月 20th, 2010

针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:

开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:

关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。

Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。

语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。

Tags: linked data, Open Data, Web3.0, 关联数据, 语义Web, 语义技术

Related posts

百思买开始发布关联数据

星期一, 八月 31st, 2009

全球最大的专业零售商、世界500强之一的百思买,开始采用RDF/XML在网上发布其商品信息,包括其所有45万种商品,每种大约60个三元组(triple,相当于数据库字段),包括价格信息。数据每日更新。

虽然这个三元组库不是世界上最大的,但它的动态性目前还无人能比。Linked Open Data项目中的所有RDF库,还没有应用于动态商业产品信息的。因此,百思买能否成功,从某种程度上对于关联数据/语义网的应用具有示范效应。

三元组数据集在这里(可惜居然要翻墙,不知是何道理!):

语义地图: http://products.semweb.bestbuy.com/sitemap.xml

数据集:
a) 软件产品:http://products.semweb.bestbuy.com/products/8182593/semanticweb.rdf

b) 硬件(”Hardgoods”):http://products.semweb.bestbuy.com/products/8794691/semanticweb.rdf

c) 电影:http://products.semweb.bestbuy.com/products/7590289/semanticweb.rdf

d) 游戏产品:http://products.semweb.bestbuy.com/products/9223752/semanticweb.rdf

Tags: bestbuy, linked data, 关联数据, 百思买, 语义技术

Related posts

关联数据浏览器

星期二, 八月 25th, 2009

20090827update: 雨师对此已经做了详细解释,参见:http://www.linhq.net/archives/5

20090826update: 在apache的httpd.conf文件中插入:AddType application/rdf+xml .rdf, AddType text/rdf+n3;charset=utf-8 .n3, AddType application/x-turtle .ttl。即解决了本帖中所遇到的问题(Firefox需安装Tabulator插件)。

最近一直在关注关联数据的实现问题。今天试验了这样几个浏览器(插件):

各有千秋。

好像Zitgist的适应性最好(见插图)。其它几个对于我的FOAF文件都不能正常显示。

后来参考《如何在网上发布关联数据》,发现是我的apache服务器的设置问题:不支持application/rdf+xml的MIME类型。

Tags: linked data, 关联数据, 语义技术

Related posts

ALA2009 Linked Data Session

星期二, 八月 4th, 2009

今年ALA年会的“草根分会场”有一个“关联数据”主题。看起来这些分会场都是事先申报,经过投票而选定的,过于小众的主题是选不上的。据说“关联数据”主题得到了118张选票。

本场主题共有四个报告:

  1. Eric Miller (Zepheira), “Linked Data and Libraries“;
  2. Diane Hillmann (Information Institute of Syracuse; Metadata Management Associates), “Are Libraries Ready for Linked Data?“;
  3. Jennifer Bowen (University of Rochester), “Defining Linked Data for the eXtensible Catalog (XC): Metadata on the Bleeding Edge“;
  4. Rebecca Guenther (Library of Congress), “Controlled Vocabularies as Linked Data on the Web“.

都相当精彩。点击链接可以下载。

Tags: , ,

Related posts

关联数据:意义及其实现

星期五, 七月 17th, 2009

关联数据(Linked Data),很简单的技术,却正在使万维网发生质的改变。
图书馆的MARC数据,规范记录,主题标目,…,正在开放成为任意互联的关联数据。
已经有20亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。
大型媒体公司,如BBC,纽约时报,已经把他们的海量数据转换成了关联数据。
英国首相咯噔布朗,已邀请李爵士为英国政府信息提供语义网(关联数据)支持。
……
关联数据正在成为数据上网的一种标准形式,使开放数据的API直接统一为HTTP协议,等于废除了任何私有的API。
其严格采用HTTP URI使真实世界全面映射到网络世界。
其全面支持RDF,使万维网资源描述得以完美模拟真实世界。

总之,这是语义网的一种初步实现。
难怪李爵士情不自禁地在TED大会上说:“这哈子歪脖总算干对了(The Web done right)!”

Tags: , ,

Related posts

讲座视频:如何发布关联数据

星期四, 五月 28th, 2009


How to Publish Linked Data on the Web

Tom Heath, Michael Hausenblas, Richard Cyganiak, Chris Bizer, Olaf Hartig

2 videos

Tags: , , , ,

Related posts

关联数据四原则

星期三, 五月 27th, 2009

专文至此,以方便链接引用。

原文来自李爵士的报告:http://www.w3.org/DesignIssues/LinkedData.html

  1. 原则一:使用URI作为任何事物的标识名称;
    Use URIs as names for things
  2. 原则二:使用HTTP URI使任何人都可以访问这些标识名称;
    Use HTTP URIs so that people can look up those names
  3. 原则三:当有人访问某个标识名称时,提供有用的信息;
    When someone looks up a name, provide useful information
  4. 原则四:尽可能提供相关的URI,以使人们可以发现更多的事物。
    Include links to other URIs so that they can discover more things
Tags: , , ,

Related posts

数据的万维网(The Web of Data)

星期三, 五月 27th, 2009

近一段时间在鼓吹“关联数据(linked data)”,与以前的研究实际上是一脉相承的。数字图书馆随着技术的演进不断地在寻求更好的实现方式,元数据应用从98、99年就认为采用RDF是最Native的(RDF为此而诞生),至今没有很好的解决方案,现在总算来了一个LD:关联数据。

虽然不是W3C的嫡亲,但是李爵士毫不掩饰对LD的厚爱,认为它是当下实现“Web of Data”的最好方式。什么是Web of Data?这可是Web3.0的精髓。自从Web2.0大热之后,羞涩内敛的李爵士也勇敢地献身俗流,给阳春白雪的“语义万维网”贴上了Web3.0的标签。

有人说Web1.0是Web of Documents(文件的Web), Web2.0是Web of Persons(人的Web,语法正确吗?),Web3.0是 Web of Data(数据的Web)。

文件Web的特征是:

  • 把互联网当成一个超大的文件系统;
  • 供人使用而不是供机器使用(文件的内容不是机器可读的编码);
  • 基本单元是文件;
  • 链接的目标对象也是文件(或者文件的部分);
  • 基本单元内部的结构化程度:非常低,不可度量;
  • 内容和链接的语义:内隐(需要人脑的理解)。

数据Web的特征是:

  • 把互联网当成一个超大的关系型数据库;
  • 主要是供机器使用(理解),也可以供人使用(多重编码,既考虑到显示,又靠虑到机读);
  • 基本单元是”资源“(或”对资源的描述“),资源可以是万事万物,只要有标识;
  • 链接可以发生在任何”资源“之间;
  • 资源的结构化程度:很高,随需而变;
  • 内容和链接的语义:外显(必须描述出来,作为显性知识,且采用机器可识别的编码方式)。

什么数据最需要关联?虽然数据面前人人平等,但是能力有高下,社会有分工。可以说“开放的数据”最需要关联,规范数据最需要关联。当然,如果企业的数据不需要关联,可能关联数据技术会活不下去,所以除了以维基百科数据为主的Linked Open Data“已成为一场声势浩大的运动之外,Linked Enterprise Data也悄然兴起。

其实,数据量最大,最有价值,保存有最多人类文化遗产的数据并不是上面这些,而是…对了…MARC。看吧,随着LoC,OCLC等业界大佬的努力,Linked MARC Data将遍地开花,其中有没有中文数据呢?这就要看你我的努力了。很有可能将来我们又要疾呼:不能让西方文明占领数据万维网!

早你干嘛去了?!

Tags: , , , , ,

Related posts