DOI:数字资源的“条形码”

2022年06月30日06:55:26 科技 1931

某一天,当我们坐在计算机前轻点鼠标打开一个常用的链接,却发现屏幕上出现的并不是原先熟悉的网页,而是一串令人懊恼的字符:“404 File not found”。相信这是跟互联网打过交道的人都不只一次碰到过的不快经历。互联网为我们打开了一个全新的世界,使信息无远弗届理想成为现实,但这是一个充满了变数和不确定性的世界。据估计每6个月就有约16%的链接成为“死链接”(Linkrot)。互联网上最缺乏的已不再是信息,而是规则。

对学术研究来说,信息的不稳定和随意流失是灾难性的。建立在大量不确定信息基础上的研究成果无异于沙滩上的城堡。一些组织和机构已经意识到这一问题的严重性,着手于互联网上信息规范的建立,DOI 就是其中卓有成效的一种。

DOI(Digital Object Identifier)意为“数字对象标识符”,是一种对包括互联网信息在内的数字信息进行标识的工具。在传统的实体出版物中,无论是书刊,还是磁带、光盘,都会被赋予ISBN、ISSN、ISCN等国际标准编号及其条形码,作为出版物在书海刊林中的唯一性标识。这些标识使出版物得到有效的管理,便于人们查找和利用。而网上的文档一旦变更了网址(URL),就消失得无影无踪,让人无从追索。如果给数字信息加上DOI,就如同出版物贴上了条形码一样,无论走到哪里都有踪可寻。因而DOI被形象地称为数字资源的条形码。

1 DOI 的编码方式与技术特点

DOI 的诞生可追溯到1994年美国出版商协会(The Association of American Publishers,AAP)下属“技术授权委员会”(Enabling Technologies Committee)的成立,该委员会的任务是设计一种在数字环境下保护知识产权和版权所有者商业利益的系统。首先要引进一种出版业标准的数字信息识别码,以支持出版商与用户之间各种系统的相互转换,为版权与使用权之间的协调管理提供基础。DOI 系统在1997年法兰克福图书博览会上首次亮相,成为数字资源命名的一项标准。1998年在法兰克福成立了非营利性的组织国际DOI 基金会(International DOI Foundation,IDF),负责有关DOI 的政策制定、技术支持、名址注册等业务。

1.1

DOI的编码方式

DOI 的结构式为:

<DOI>=<DIR>.<REG>/<DSS>

DOI 分为前缀和后缀两部分,中间用一斜杠分开。前缀中又以小圆点分为两部分,<DIR>为DOI的特定代码,其值为10,用以将DOI 与其他应用Handle System(句柄系统)技术的系统区别开。<REG>(Registrant’s Code)是DOI 注册代理机构的代码,由DOI 的管理机构IDF(International DOI Foundation,国际DOI 基金会)负责分配,由四位阿拉伯数字组成。后缀<DSS>(DOI Suffix String)由DOI 注册代理机构——目前主要是学术出版商自行给出,规则不限,只要在该出版商的所有产品中具有唯一性即可。如下面几例都可以是DOI 的合法编码:

10.1234/5678

10.2341/0—7645—4889—1

10.5678/978—0—7645—4889—4

10.1000/ISBN0764548891

10.1234/Norman-presentation

10.2224/2003—1—29—CENDI—DOI

DOI 的命名结构使每个数字资源在全球具有唯一的标识。DOI 不同于URL,它是数字资源的名称,而与地址无关。实际上它是一种URI(Universal Resource Identifier,统一资源标识符)或URN(Universal Resource Name,统一资源名称),是信息的数字标签和身份证。有了它,就使信息具有了唯一性和可追踪性。

1.2

DOI 的技术特点

DOI 以两种技术为基础:Handle System(句柄系统)和<indecs>元数据框架。

Handle System 是由美国研究创新联合会(Corporation for National Research Initiative,CNRI)开发的技术平台,用于因特网信息的命名、解析和管理。<indecs>(Interoperability of Data in Ecommerce Systems)是一套用于在电子商务环境下实现数据互操作的元数据框架,选择<indecs>作为元数据框架为DOI 的多种应用提供了基础。

Handle System 和<indecs>元数据框架为DOI 提供了从单一解析到多重解析的应用。首先应用的单一地址解析机制为用户提供了对数字资源的永久性访问。为了避免资源地址的改变造成用户链接失效,DOI 系统对资源地址进行了有效的管理。出版商为其每项资源注册DOI 时,要同时向Handle System 主机提交资源的DOI 名称和网址(URL)。出版商负责对DOI 数据的维护,当资源地址发生改变,如网络期刊文章从现刊目录转到存档目录时,出版商应通知Handle System 主机作相应的改变,以确保链接的有效性。当用户点击资源的DOI 索取信息时,用户的请求被传送到Handle System 服务器上,Handle System 服务器将DOI 解析为URL 返还给用户终端,使用户实现对资源的访问。这一切都在后台进行,对用户来说,无需理会资源地址的任何更动,面对的始终只是同一个DOI。理论上,DOI 提供的资源链接具有永久有效性。

提供对资源的永久性链接只是DOI 一个基本而初步的应用。事实上Handle System 技术本身还包含了多重解析(Multiple Resolution)的功能,即从一个DOI 不仅能指向一个URL,还可以指向多个URL,以及URL 以外的其他各种类型的元数据。下面的示意图显示了一个DOI 可以被解析为多种类型的数据:

DOI:数字资源的“条形码” - 天天要闻

DOI 的多重解析为用户提供了更多的选择和便利。在解析出多个URL 时,他们可以选择离自己最近的一个镜像站点下载数据;同时,还可以链接到该资源的许多相关信息,如获取元数据、相关主题作品、相关评论文献、同一作者的其他作品,及相关音乐、图片、动画等多媒体信息,版权人及出版商的信息及联系方式等等。多重解析不仅确保了对资源的访问,而且为资源的各种深度利用打开了大门。

2 DOI 的应用及发展前景

目前,加入DOI 的组织和机构已超过300家,DOI 记录数量接近一千万个。应用DOI 的文献开始从英语这一单一语种向多语种发展,应用于法语、德语、西班牙语、意大利语、朝鲜语等文献。DOI 目前主要应用于文本,但用于声音、图像等非文本对象的编码已在探索之中。

2.1

CrossRef 的成功应用

DOI 为确保网络学术资源的稳定链接提供了一个强大的工具,它首先在这方面得到了有效应用,这就是CrossRef 的诞生。

CrossRef 是一个参考文献链接系统,于2000年9月成为国际DOI 基金会所授权的第一个注册代理机构。加入CrossRef 的学术出版商,对其出版的学术论文用DOI 进行标注,当用户在其他论文的参考文献列表中看到该论文时,只需点击其DOI 即可链接至该论文所在页面,阅读摘要或全文。CrossRef实现了学术论文参考文献之间的动态链接,为学术研究创造了极大的方便,取得了巨大的成功。

目前已有约200家出版机构加入CrossRef,自2001年1月以来,CrossRef 每年增加约3百万个DOI标识,服务器每个月要处理约2百万条解析。

2.2

电子商务方面的应用前景

实际上,确保对学术信息的稳定链接仅仅是DOI 的一个基本应用。前面已经说过,除了资源本身以外,多重解析机制还为用户提供了大量相关信息的链接。但还不仅仅于此,DOI 是一个致力于激发行动的(Actionable)系统,一个促进和服务于电子商务的系统。DOI 之所以采用<indecs>元数据框架的原因正在于此。

回顾DOI 的历史,可以看出DOI 主要是由出版界发起建立的一个标准,它更多地考虑到促进出版界开展电子商务,保护知识产权和出版商利益的需要。DOI 更大的、主要的目标是电子商务领域的应用。在DOI 通过多重解析导出的各种类型数据中,包含了开展电子商务所需的各项基本元素。读者在点击DOI 链接到相关的资源时,如果该资源是需要付费购买的,可以马上引导读者进入电子商务流程。例如在电子文献阅读软件中内嵌DOI 系统,就可以实现文献的在线订购。用户可以通过DOI 直接链接到出版商的网址购买eBook,或者付费打印电子文献。DOI 在出版界电子商务领域的应用潜力是十分巨大的,虽然这个领域目前还处于开拓之中,但发展势头迅猛,一些试验性的项目已经启动。

2.3

DOI 的局限与图书馆界的参与

尽管DOI 已初具规模,发展潜力也很大,但也存在一定局限性。由于DOI 对注册代理机构的审核比较严格,而且为了维持DOI 的运作要求会员交纳并不算低的会费,目前参加DOI 的多为大出版商,众多小出版商的产品仍处于DOI 应用范围之外。虽然DOI 的记录数量已相当可观,但相对于海量的网络信息来说仍只是杯水车薪。从DOI 的参与面来看,目前在DOI 的运作和发展中唱主角的仍是出版界的代表,这使得DOI 多少染上了些商业气味,也阻碍了它作为一个信息标准在更大范围的推广和应用。

一个值得注意的现象是,政府机构、图书馆及其他信息用户代表正在参与到DOI 的发展进程中来。英国负责出版政府文件的文书局(The Stationery Office,TSO)已成为来自政府方面的第一个注册代理机构,同时德国、荷兰国家图书馆和大英图书馆加入了DOI 的非正式论坛。毕竟数字信息资源是全人类的共同财富,而不是出版商的专利。数字信息的编码和互通对信息资源的共享和利用关系至巨,需要有关各方的共同参与,体现各方的利益和要求。图书馆作为保存和传播信息资源的公益机构,应积极参与数字资源共享规则的制订,以维护公众合理利用信息的权利,达成版权人和使用者之间利益的平衡。

原刊《图书馆工作与研究》2003年第5期

责任编辑:褚欣桐

作者简介

DOI:数字资源的“条形码” - 天天要闻

何朝晖,历史学博士,现任山东大学儒学高等研究院古典文献研究所教授。主要研究领域为明史、版本目录学、书籍史。著有《明代县政研究》《晚明士人与商业出版》《书籍的社会史——中华帝国晚期的书籍与士人文化》(译著)、《书史导论》(译著)等。

出版六家

出版人的小家

出版六家公众号的所有内容,均为原创。

未经许可,请勿使用。

欢迎合作、转载。

科技分类资讯推荐

最新消息!她已离职!曾凌晨发文道歉 - 天天要闻

最新消息!她已离职!曾凌晨发文道歉

本月初,百度副总裁璩静在短视频平台上发布的几条出镜视频引发网友关注,特别是其提到“员工闹分手提离职我秒批”等职场话题引发网友质疑,一度登上微博热搜。
淘宝取消“618”预售机制后,京东宣布“现货开卖” - 天天要闻

淘宝取消“618”预售机制后,京东宣布“现货开卖”

继5月7日天猫宣布取消“618”预售机制后,5月8日,京东也正式宣布“现货开卖”。今年京东618将于5月31日晚8点全面开启。据了解,现货开卖的同时,京东还将同步推出百亿补贴日活动。在6月2日、6月3日、6月8日,还将先后推出9.
细思极恐网络暴力和群殴 - 天天要闻

细思极恐网络暴力和群殴

互联网高速发展利用时代踏实做事和说实话的人都不被人待见,时时刻刻遭受网络暴力,声讨,群殴,格力电器董明珠,踏踏实实做企业,创税收,促进就业,,为国家为人民奉献大半辈子青春,心血, 汗水,本该退休安享晚年,侍弄儿孙遗憾找不到合适放心接班人,七
探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图 - 天天要闻

探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图

前段时间的vivo X系列新品发布让我们记忆深刻,而刚刚结束结束的“影像新蓝图X系列技术沟通会”也十分精彩,这次沟通会不仅告诉了大家vivo在影像领域的最新成果,也让粉丝们对vivo影像背后的故事有更多了解,在vivo影像的发展历程中可以分成两方面,一方面,vivo通过自主研发,不断提升自身的影像技术实力,另一方面,vivo...
华为再次亮剑,鸿蒙系统亮点多多 - 天天要闻

华为再次亮剑,鸿蒙系统亮点多多

5月15日,华为夏季全场景新品发布会简直是一场视觉与科技的盛宴,看得我热血沸腾!不得不说,华为这次真的是大招频出,新品多到让人眼花缭乱!先说说那个华为MatePad 11.5 ” S吧,一亮相就让人眼前一亮!它的设计简约而不失时尚,屏幕清晰得让人仿佛置身其中。
【新机】升级了个寂寞?蓝厂新机发布 - 天天要闻

【新机】升级了个寂寞?蓝厂新机发布

昨天晚上蓝厂发布了新机iQOO Neo9s Pro,机子采用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭载天玑9300+,前置1600万像素,后置IMX920主摄+5000万超广角。电池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃后盖,颜值确实提升了不少。不过还是塑料中框+短焦指纹。12+256GB 2699元
AI Agent在哪些行业领域会产生影响? - 天天要闻

AI Agent在哪些行业领域会产生影响?

在如今飞速前进的科技浪潮中,人工智能(AI)技术的创新正以前所未有的速度重塑我们的生活和工作的每一个角落。在这一浪潮中,Agent AI智能体以其卓越的能力脱颖而出,它通过模拟人类智能行为,能够胜任一系列复杂任务,并在多个领域展现出了其无法替代的价值。