Archive for the ‘知识组织’ Category

“数字索引学”要旨

星期四, 九月 30th, 2010

张琪玉先生说:

“索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种试想(如地区、人物、机构、事件、生物、矿 物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的 一种工具。”

由以上定义,可以得出以下两点结论:
一、索引与目录一样,都是提供一种检索方法或工具,通过析出知识单元并加以有序组织,而在大量的信息中进行定位。
二、索引有三要素:

  1. 结构化–带来“单元性”–要有URI和元数据格式;
  2. 有序化–产生“组织性”–要采用知识体系(本体)进行组织;
  3. 可视化–造就“交互性”–要有二维、三维界面进行时空或抽象呈现;

传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,在印刷过程中通过排版技巧(字体字号空格缩进段落等)来实现,可以认为其有序化和可视化是一体的。

数字索引学的研究课题:
除与传统索引进行转换之外(如书后索引的自动建立、方正格式等的索引点标注等),数字索引学还将研究:

  1. 资源标识体系(索引什么,如何标识,如各种URI);
  2. 元数据格式(如何描述、表达、互操作,如RDFa、各种微格式等);
  3. 有序化(自然顺序之外,还包括本体和各类KOS)组织方式;
  4. 自动索引(信息或知识单元的自动抽取);
  5. 可视化方式。

数字索引学技术基础:

  1. Web架构;
  2. XML/RDF编码;
  3. 语义描述(元数据与本体标准);
  4. 关联数据;
  5. 规范控制;
  6. 信息可视化。

结论:索引与索引学已经与数字资源组织的各专门领域和学科大融合。

Tags: 专业评论, 张琪玉, 数字化, 知识组织, 索引, 索引学

Related posts

“2010图书馆前沿技术论坛:关联数据与书目数据的未来会议”日程及演示稿下载

星期四, 八月 26th, 2010
2010图书馆前沿技术论坛:关联数据与书目数据的未来
Linked Data Workshop Shanghai
(日程及会议演示稿)

主办单位:上海图书馆学会学术委员会
协办单位:上海市普陀区图书馆
活动主题:关联数据:技术实现和应用前景
费用:无
会议时间:2010年8月23日13:00-18:00pm
会议地点:普陀区图书馆 大渡河路1800号(铜川路口)12楼多功能会议室

会议日程(执行):
13:00-13:10 上海市图书馆学会学术委员会主任范并思致辞,普陀区图书馆馆长司颖致辞
13:10-13:40 曾蕾教授远程发言(ppt)
13:40-14:20 林海青 关联数据的功能需求及其实现(ppt)
14:20-15:00 刘  炜 关联数据ABC及近两年来的应用进展(ppt)
15:00-15:40 胡小菁 RDA与关联数据(ppt)
15:40-15:50 休息
15:50-16:15 黄田青 关联数据:语义万维网的新坐标 (ppt)
16:15-16:45 夏翠娟 应用开源内容管理软件Drupal发布关联数据的探索(ppt)
16:45-17:10 张春景 关联数据开放的有关法律问题(ppt)
17:10-17:40 白海燕 基于关联数据的信息组织深度序化初探(ppt)
17:40-18:05 赵  亮 主持远程参会者发言及讨论
18:05-18:06 范并思 会议总结并宣布闭幕

群组资料在此:http://sns.libspace.org/space-mtag-tagid-38.html
会议通知在此:https://docs.google.com/ 或pdf格式:http://sns.libspace.org/

2010图书馆前沿技术论坛:关联数据与书目数据的未来

2010图书馆前沿技术论坛:关联数据与书目数据的未来

Tags: 元数据, 关联数据, 知识组织, 语义技术

Related posts

关于中国历史朝代本体的rdf描述

星期二, 一月 26th, 2010

书社会的Caveman在做一项很实用的研究,问了一个很好的问题(一般而言,回答不上来的问题都是好问题)。我在这里做一些讨论,希望抛砖引玉,批评指正。
在这里把问题归纳为:如何用RDF(及其家族)描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里:http://tinyurl.com/timeReignChinese
直感转换方法有很多种,可以用RDF,也可以用SKOS和OWL,甚至其它,包括直接用XML自定义也可以。
编码原则应该是:能复用就复用,看看前人的成果。
而如何编码,哪种方式合用,关键还要看需求。
网络上已经有一些供人使用的转换工具了,但如果要通用性,应该基于RDF进行编码,并开发一个工具,甚至变成语义网络的一种服务,就能够直接为机器理解、获取和使用,能够被其它应用任意调用,就能体现语义技术最大的优越性了。

想到目前国内有些分类法主题词表分别都有了网络版,但那是给人看的,无法通过服务器直接获取术语和术语关系,进行匹配和关系运算,这实际上发挥不了多大的作用。只有用RDF(SKOS或OWL)编码之后,提供一定的语义Web服务(例如用关联数据方式发布),才能真正发挥词表的作用。
这里的核心需求可以整理为:
1、某个朝代有哪些年号,这些年号的起讫日期(即这个对照表:http://tinyurl.com/timeReignChinese
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号(如不同朝代相同年号)和模糊日期(如起讫年精确到年还是月还是日)的处理。
4a、是否需要提供网络服务接口,实现双向转换;
4b、还是提供代码,嵌入任何应用;
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的,不同朝代的国家情况(地理疆域、并行的国号等)。
就这个对照表的转换而言,可以认为只需满足1、2和4c即可。

简单的解决方案可以这样:
定义朝代(dynasty)类和年号(reign)子类,都属于event类,复用event本体(http://motools.sourceforge.net/event/event.html)和timeline本体(http://motools.sourceforge.net/timeline/timeline.html)中的元素,建立“朝代-年号”和“年号-公元纪年(date interval类型)”的rdf描述即可。
将来可以扩展(复用)event的其它属性,例如皇帝,都城,等等。

Tags: RDF, 朝代, 本体, 知识组织, 语义技术

Related posts

SKOS不是KOS,Linked Data不是Data

星期一, 一月 25th, 2010

有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:

  1. SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
  2. 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。
Tags: linked data, SKOS, 知识组织

Related posts

本体究竟应用得如何?

星期日, 五月 31st, 2009

经常被问到一个问题:“本体”近年来一直是个十分热门的领域,但是有没有具体应用的成功案例?

这个问题的由来可能有两个方面:

1、大量的本体文章都停留于研究探讨层面,虽然有“本体工程”一词,但是似乎未见真正的“工程”成果,例如像中图法、汉表之类看得到摸得着的成果;
2、缺乏“一剑封喉”或者“刀刀见血”的杀手级应用。

应 该说本体领域确实存在上述现象,但这并不是说本体作为时髦一时的词汇已经失去了价值,相反它已经作为一种基本的系统建模和资源组织的思想方法,在当今的计 算机应用、特别是基于互联网和语义的应用方面,几乎是遍地开花、无所不在,可能也正是这个原因,大家并不刻意地去强调和渲染“本体”的作用。

但 就上面第一个问题而言,由于当前的本体基本上都是给计算机操作的,因此以机器可识别的方式编码,是本体的一大特征。多种本体编码语言中,基于万维网应用的 OWL目前处于主流地位,Google专门有一个“本体搜索引擎”Swoogle(http://swoogle.umbc.edu/),能够搜索超过一 万个大大小小的本体OWL/RDFS文档(RDF/RDFS可以认为是OWL的宿主语言)。本体作为一种互联网时代的知识组织规范,其标准化程度可能再也 不会像传统分类法或者叙词表那样,具有“国家标准”的地位,但是它们却是在大量的应用系统背后,起到“行业标准”或“领域规范”的作用。

由于本体有多种含义,有广 义、狭义的区分,也有内外之别。广义地来说,作为信息组织的概念模型和基本方式,传统的分类法、叙词表等各种方法都可以转换成本体形式,都可以称之为本 体(这一点可能有争议)。而且大量的领域本体或者企业内部本体是不对外的,是否应用了本体,我们通常可以从用户界面和系统功能方面考察,例如应用了分类主题导航或者分面浏览功 能的很多系统,都可以认为是应用了本体。

本体在最需要严格的知识组织、跨学科综合性海量信息资源管理的领域已经得到很多应用,例如生命科学 (生物多样性,基因工程,医疗卫生疾病防控等)、地球科学(大气监控、环境变化等)、教育资源(特别是英国)。记得最早接触和学习的本体,是联合国粮农组织FAO的项目,他们是这 个领域的先驱,一直做得很好,而且很开放。对于我们这个领域来说,除了大量的知识组织方法可以转化成本体,继续在互联网时代发挥作用之外,FRBR其实也是一种 本体,正在成为下一代编目数据的模型基础,得到广泛的应用,另外我的另两篇博文也谈到与图书情报领域相关的两个本体应用项目:一个可资借鉴的本体应用项目:STERNA叙词与本体,及其在Elsevier的应用。

Tags: , ,

Related posts

一个可资借鉴的本体应用项目:STERNA

星期四, 五月 28th, 2009

几个月前,曾蕾老师介绍了一个项目:STERNA。仔细看了下,这的确是目前可以参考的、实用的、同时又是最先进的、本体应用于数字图书馆的项目。
STERNA是Semantic Web-Based Thematic European Reference Network Application的简称。该项目有一个官方的介绍性ppt,像贵国的学者或官员一样,采用“拆字法”把这个名称解释为:

•  Semantic(语义): 采用最新的(state-of-the-art)语义万维网技术
•  Thematic(主题): 以某一个特定的主题为驱动,目前该项目的主题是“鸟”(BIRDS)
•  European (欧洲)

•  覆盖(链接)了整个欧洲的资源和内容(来自于10个欧洲国家14个博物馆)
•  多/跨语言的内容/ 功能

•  Reference structures(参考结构,实际上是指内容架构/知识结构)

•  在不同的网络资源之间提供了一种“黏合”作用(我的理解,就是在不同国家的不同博物馆的数字资源之间提供了一定的语义互操作功能)
•  参考结构的具体内容包括:词表word lists, 词典glossaries, 分类表taxonomy, 叙词表thesauri 等。

•  Network(网络): 独立、自治的机构共同协作,进行内容创建、链接和共享。
•  Application(应用): 符合SaaS理念的Web应用(现在应该高耸入“云”了)。

其末尾的RNA又意味这该项目是一个“发端”(origin),对于各类其它的“主题”资源,具有引导和示范作用。
这好像也是一个欧洲数字图书馆(EDL)的项目,得到EDL Foundation的资助。项目执行期限是2008-2010(30个月),目前还在进行中,其“语义原型系统”也要到今年年底才能完成,但目前发布的一些文档已足以吸引同行的眼球了。

我 的感觉,其采用的语义架构最大的好处在于“动态”的知识组织和扩展,这就使其具有了更强的“可持续发展”的能力,不像传统的数字图书馆,建成之日就是封闭 之时,很难有大的内容扩展,或者与其它资源进行融合(mashup),因此可以说其方法论意义远大于资源的意义。当然作为一个知识架构和聚合器,未来人文 与自然结合的、高质量、富语义的鸟类资源,也应该是毫不逊色的亮点。

Tags: , , , , ,

Related posts