DOI:数字资源的“条形码”

2022年06月30日06:55:26 科技 1931

某一天,当我们坐在计算机前轻点鼠标打开一个常用的链接,却发现屏幕上出现的并不是原先熟悉的网页,而是一串令人懊恼的字符:“404 File not found”。相信这是跟互联网打过交道的人都不只一次碰到过的不快经历。互联网为我们打开了一个全新的世界,使信息无远弗届理想成为现实,但这是一个充满了变数和不确定性的世界。据估计每6个月就有约16%的链接成为“死链接”(Linkrot)。互联网上最缺乏的已不再是信息,而是规则。

对学术研究来说,信息的不稳定和随意流失是灾难性的。建立在大量不确定信息基础上的研究成果无异于沙滩上的城堡。一些组织和机构已经意识到这一问题的严重性,着手于互联网上信息规范的建立,DOI 就是其中卓有成效的一种。

DOI(Digital Object Identifier)意为“数字对象标识符”,是一种对包括互联网信息在内的数字信息进行标识的工具。在传统的实体出版物中,无论是书刊,还是磁带、光盘,都会被赋予ISBN、ISSN、ISCN等国际标准编号及其条形码,作为出版物在书海刊林中的唯一性标识。这些标识使出版物得到有效的管理,便于人们查找和利用。而网上的文档一旦变更了网址(URL),就消失得无影无踪,让人无从追索。如果给数字信息加上DOI,就如同出版物贴上了条形码一样,无论走到哪里都有踪可寻。因而DOI被形象地称为数字资源的条形码。

1 DOI 的编码方式与技术特点

DOI 的诞生可追溯到1994年美国出版商协会(The Association of American Publishers,AAP)下属“技术授权委员会”(Enabling Technologies Committee)的成立,该委员会的任务是设计一种在数字环境下保护知识产权和版权所有者商业利益的系统。首先要引进一种出版业标准的数字信息识别码,以支持出版商与用户之间各种系统的相互转换,为版权与使用权之间的协调管理提供基础。DOI 系统在1997年法兰克福图书博览会上首次亮相,成为数字资源命名的一项标准。1998年在法兰克福成立了非营利性的组织国际DOI 基金会(International DOI Foundation,IDF),负责有关DOI 的政策制定、技术支持、名址注册等业务。

1.1

DOI的编码方式

DOI 的结构式为:

<DOI>=<DIR>.<REG>/<DSS>

DOI 分为前缀和后缀两部分,中间用一斜杠分开。前缀中又以小圆点分为两部分,<DIR>为DOI的特定代码,其值为10,用以将DOI 与其他应用Handle System(句柄系统)技术的系统区别开。<REG>(Registrant’s Code)是DOI 注册代理机构的代码,由DOI 的管理机构IDF(International DOI Foundation,国际DOI 基金会)负责分配,由四位阿拉伯数字组成。后缀<DSS>(DOI Suffix String)由DOI 注册代理机构——目前主要是学术出版商自行给出,规则不限,只要在该出版商的所有产品中具有唯一性即可。如下面几例都可以是DOI 的合法编码:

10.1234/5678

10.2341/0—7645—4889—1

10.5678/978—0—7645—4889—4

10.1000/ISBN0764548891

10.1234/Norman-presentation

10.2224/2003—1—29—CENDI—DOI

DOI 的命名结构使每个数字资源在全球具有唯一的标识。DOI 不同于URL,它是数字资源的名称,而与地址无关。实际上它是一种URI(Universal Resource Identifier,统一资源标识符)或URN(Universal Resource Name,统一资源名称),是信息的数字标签和身份证。有了它,就使信息具有了唯一性和可追踪性。

1.2

DOI 的技术特点

DOI 以两种技术为基础:Handle System(句柄系统)和<indecs>元数据框架。

Handle System 是由美国研究创新联合会(Corporation for National Research Initiative,CNRI)开发的技术平台,用于因特网信息的命名、解析和管理。<indecs>(Interoperability of Data in Ecommerce Systems)是一套用于在电子商务环境下实现数据互操作的元数据框架,选择<indecs>作为元数据框架为DOI 的多种应用提供了基础。

Handle System 和<indecs>元数据框架为DOI 提供了从单一解析到多重解析的应用。首先应用的单一地址解析机制为用户提供了对数字资源的永久性访问。为了避免资源地址的改变造成用户链接失效,DOI 系统对资源地址进行了有效的管理。出版商为其每项资源注册DOI 时,要同时向Handle System 主机提交资源的DOI 名称和网址(URL)。出版商负责对DOI 数据的维护,当资源地址发生改变,如网络期刊文章从现刊目录转到存档目录时,出版商应通知Handle System 主机作相应的改变,以确保链接的有效性。当用户点击资源的DOI 索取信息时,用户的请求被传送到Handle System 服务器上,Handle System 服务器将DOI 解析为URL 返还给用户终端,使用户实现对资源的访问。这一切都在后台进行,对用户来说,无需理会资源地址的任何更动,面对的始终只是同一个DOI。理论上,DOI 提供的资源链接具有永久有效性。

提供对资源的永久性链接只是DOI 一个基本而初步的应用。事实上Handle System 技术本身还包含了多重解析(Multiple Resolution)的功能,即从一个DOI 不仅能指向一个URL,还可以指向多个URL,以及URL 以外的其他各种类型的元数据。下面的示意图显示了一个DOI 可以被解析为多种类型的数据:

DOI:数字资源的“条形码” - 天天要闻

DOI 的多重解析为用户提供了更多的选择和便利。在解析出多个URL 时,他们可以选择离自己最近的一个镜像站点下载数据;同时,还可以链接到该资源的许多相关信息,如获取元数据、相关主题作品、相关评论文献、同一作者的其他作品,及相关音乐、图片、动画等多媒体信息,版权人及出版商的信息及联系方式等等。多重解析不仅确保了对资源的访问,而且为资源的各种深度利用打开了大门。

2 DOI 的应用及发展前景

目前,加入DOI 的组织和机构已超过300家,DOI 记录数量接近一千万个。应用DOI 的文献开始从英语这一单一语种向多语种发展,应用于法语、德语、西班牙语、意大利语、朝鲜语等文献。DOI 目前主要应用于文本,但用于声音、图像等非文本对象的编码已在探索之中。

2.1

CrossRef 的成功应用

DOI 为确保网络学术资源的稳定链接提供了一个强大的工具,它首先在这方面得到了有效应用,这就是CrossRef 的诞生。

CrossRef 是一个参考文献链接系统,于2000年9月成为国际DOI 基金会所授权的第一个注册代理机构。加入CrossRef 的学术出版商,对其出版的学术论文用DOI 进行标注,当用户在其他论文的参考文献列表中看到该论文时,只需点击其DOI 即可链接至该论文所在页面,阅读摘要或全文。CrossRef实现了学术论文参考文献之间的动态链接,为学术研究创造了极大的方便,取得了巨大的成功。

目前已有约200家出版机构加入CrossRef,自2001年1月以来,CrossRef 每年增加约3百万个DOI标识,服务器每个月要处理约2百万条解析。

2.2

电子商务方面的应用前景

实际上,确保对学术信息的稳定链接仅仅是DOI 的一个基本应用。前面已经说过,除了资源本身以外,多重解析机制还为用户提供了大量相关信息的链接。但还不仅仅于此,DOI 是一个致力于激发行动的(Actionable)系统,一个促进和服务于电子商务的系统。DOI 之所以采用<indecs>元数据框架的原因正在于此。

回顾DOI 的历史,可以看出DOI 主要是由出版界发起建立的一个标准,它更多地考虑到促进出版界开展电子商务,保护知识产权和出版商利益的需要。DOI 更大的、主要的目标是电子商务领域的应用。在DOI 通过多重解析导出的各种类型数据中,包含了开展电子商务所需的各项基本元素。读者在点击DOI 链接到相关的资源时,如果该资源是需要付费购买的,可以马上引导读者进入电子商务流程。例如在电子文献阅读软件中内嵌DOI 系统,就可以实现文献的在线订购。用户可以通过DOI 直接链接到出版商的网址购买eBook,或者付费打印电子文献。DOI 在出版界电子商务领域的应用潜力是十分巨大的,虽然这个领域目前还处于开拓之中,但发展势头迅猛,一些试验性的项目已经启动。

2.3

DOI 的局限与图书馆界的参与

尽管DOI 已初具规模,发展潜力也很大,但也存在一定局限性。由于DOI 对注册代理机构的审核比较严格,而且为了维持DOI 的运作要求会员交纳并不算低的会费,目前参加DOI 的多为大出版商,众多小出版商的产品仍处于DOI 应用范围之外。虽然DOI 的记录数量已相当可观,但相对于海量的网络信息来说仍只是杯水车薪。从DOI 的参与面来看,目前在DOI 的运作和发展中唱主角的仍是出版界的代表,这使得DOI 多少染上了些商业气味,也阻碍了它作为一个信息标准在更大范围的推广和应用。

一个值得注意的现象是,政府机构、图书馆及其他信息用户代表正在参与到DOI 的发展进程中来。英国负责出版政府文件的文书局(The Stationery Office,TSO)已成为来自政府方面的第一个注册代理机构,同时德国、荷兰国家图书馆和大英图书馆加入了DOI 的非正式论坛。毕竟数字信息资源是全人类的共同财富,而不是出版商的专利。数字信息的编码和互通对信息资源的共享和利用关系至巨,需要有关各方的共同参与,体现各方的利益和要求。图书馆作为保存和传播信息资源的公益机构,应积极参与数字资源共享规则的制订,以维护公众合理利用信息的权利,达成版权人和使用者之间利益的平衡。

原刊《图书馆工作与研究》2003年第5期

责任编辑:褚欣桐

作者简介

DOI:数字资源的“条形码” - 天天要闻

何朝晖,历史学博士,现任山东大学儒学高等研究院古典文献研究所教授。主要研究领域为明史、版本目录学、书籍史。著有《明代县政研究》《晚明士人与商业出版》《书籍的社会史——中华帝国晚期的书籍与士人文化》(译著)、《书史导论》(译著)等。

出版六家

出版人的小家

出版六家公众号的所有内容,均为原创。

未经许可,请勿使用。

欢迎合作、转载。

科技分类资讯推荐

特斯拉中国宣布:涨价 - 天天要闻

特斯拉中国宣布:涨价

(文/观察者网周盛明 编辑/高莘)2025年7月1日,特斯拉中国宣布,Model 3长续航全轮驱动版车型售价上涨1万元,至28.55万元。 特斯拉中国 在涨价的同时,该车型的续航和加速得到了提升——CLTC续航由713km提升至753km,百公里加速时间由4.4秒提升至3.8秒。值得注意的是,特斯拉Model 3的其他两个版本售价不变。Model 3后轮驱.
储能与锂电领域动态频出:巨头竞逐、项目签约与跨界调整并行 - 天天要闻

储能与锂电领域动态频出:巨头竞逐、项目签约与跨界调整并行

【环球网财经综合报道】近期,储能与锂电领域动态不断。阳光电源(300274.SZ)与宁德时代(300750.SZ)围绕第三代储能电芯定义权展开激烈争夺。6月,阳光电源发布搭载684Ah电芯的新款储能系统,电芯由欣旺达供应;宁德时代宣布587Ah电芯于4月投产。当前储能行业处于二代向三代电芯过渡期,二代容量为314Ah,两大阵营分化明...
亚马逊CEO:生成式AI或致员工数量减少,但也将带来新机遇 - 天天要闻

亚马逊CEO:生成式AI或致员工数量减少,但也将带来新机遇

【环球网财经综合报道】亚马逊CEO安迪·贾西周一表示,生成式人工智能的快速推出,意味着公司未来或需更少员工完成计算机可处理的工作,如同每次技术转型,一些工作将因自动化而用人减少,但也会有新工作产生。东方IC尽管人工智能会消除部分职位需求,贾西称亚马逊仍会在人工智能、机器人等领域招聘更多员工。不过,本月早...
25万起售的小米YU7,三分钟大定20万台,数据是真的吗? - 天天要闻

25万起售的小米YU7,三分钟大定20万台,数据是真的吗?

相信这几天小米YU7的火爆程度大家都看到了,这款车发布后开启预定,打开预定通道后不久,小米官方就公布了一个数据,3分钟大定超20万台。没过多久,小米官方又公布了一个更炸裂的数据,小米YU7在1小时内,大定已突破289000万台。
邹晖出任格力集团董事长 - 天天要闻

邹晖出任格力集团董事长

本文来源:时代财经 珠海格力集团官网更新信息显示,邹晖已正式出任该集团党委书记、董事长。公开资料显示,邹晖于1982年生,本科学历。邹晖曾担任珠海市人大常委会农村农业工作委员会副主任,后转任珠海市国资委副主任。此次调整后,格力集团领导班子为:邹晖担任集团党委书记、董事长,王轶任党委副书记、董事、总裁,吴...
【产业互联网周报】阿里合伙人名单最新变动:9人已退出;美团在AI投入超百亿元;黄仁勋:机器人技术是芯片制造商继AI之后的最大机遇 - 天天要闻

【产业互联网周报】阿里合伙人名单最新变动:9人已退出;美团在AI投入超百亿元;黄仁勋:机器人技术是芯片制造商继AI之后的最大机遇

图片系AI生成【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯北京经信局:北京累计备案上线大模型132款,全国占比35%在2025全球数字经济大会新闻发布会上,北京市经济和信息化局党组成员、副局长、新闻发言人刘维亮表示,...