闲话数字图书馆关键技术
时间:2011-10-28 23:10:04  来源:  作者:simyjs  点击量:

    笔者从2000年开始持续关注数字图书馆研究,有所实践,有所思考。然而就什么是数字图书馆关键技术,并不清晰。曾试图求教同好,似乎亦含糊其辞。数字图书馆一路走来,是摸着石头过河。而信息技术的发展,日新月异,直观的感受是时下的信息技术设备、网速、存储等较十年前有巨大的进步。

    笔者通过读秀平台“知识”搜索“数字图书馆”与“关键技术”,得到专题聚类信息589条,其中图书相关79篇、期刊相关345篇、报纸相关2篇、文档相关15篇、学位论文相关25篇、会议论文相关11篇。这些文献排除重复的部分,文献量也不小,但是总体说来信息质量不高,大多是一知半解的、零碎的、片面的,甚至是过时的。其中有一篇《数字图书馆的发展趋势及关键技术》(http://navi.nlc.gov.cn:8080/WEB_GT/Resource/p106.ppt)信息质量比较高,署名是北方民族大学图书馆,但我知道该文献是“编著”的,其中不少内容是熟悉的,没有注明信息来源。笔者打算在此基础上进一步“编著”。

    要回答什么是关键技术?先得了解什么是核心技术?核心是指中心的主要的,关键是指最关紧要的,起决定作用的。

    数字图书馆核心技术分3类:(1)以系统为中心的核心技术。数字图书馆必须利用高端服务器、多类网络通信技术、智能存储系统、将面向对象的软件技术、人工智能技术与先进的知识组织和调度系统相结合,建立具有很好的可扩展性、易用性、可管理性和高可用性以及较强的可持续发展能力的数字图书馆系统和群体。包括:基于并行和集群技术的数字图书馆中心服务器;通用数字对象命名体系的设计和实现;大型分布调度系统设计与实现;数字图书馆的信息通信基础设施:无线网络、有线网络、宽带网络、P2P网络等相关技术;通用数字图书馆支撑平台的设计和开发;信息安全机制和技术;海量多媒体信息的采集、压缩、表现和数字化技术等;基于分布、异构、海量环境下的数字图书馆体系结构的研究和设计;基于多种主体(Agent)的人工智能技术在数字图书馆的应用;中间件技术;数字图书馆系统的运行与维护等。(2) 以内容为中心的核心技术。以内容和收藏为基础的数字图书馆研究注重于更好理解并完善获取新的电子内容和收藏的途径,鼓励跨学科研究,鼓励所有学科领域的参与。建设数字图书馆的核心是内容建设,也就是用一套中性技术(例如:XML)对数字知识内容资源加以组织与管理。具有超大规模、分布式的、可扩展的多媒体知识资源库,是发挥数字图书馆作用的基础;加工内容资源必须采用多种国际标准与工业规范去标引和组织,以达到一次加工、长期使用、以及多种内容资源可互操作的目的。包括:元数据的标准和规范;知识资源(含声、像、图、文)的通用型加工系统;语法层次的大容量文献自动采集;自动篇名生成、自动标引、自动文摘生成的实用化技术;知识概念(语义)体系的建立(实现语义层次的自动标引、自动文摘生成);分布式藏品元数据的聚集与元数据库的构建;超大规模多媒体数字资源的长久保存、归档和存储管理技术,包括档案系统等;数字内容藏品的版权管理系统;数字对象和媒体的新型经济与商务模型研究;与创建和使用数字收藏有关的社会经济法律问题的技术、方法、过程。(3) 以用户为中心的核心技术。数字图书馆的建设以不断改善用户服务为最终目标,必须为用户在知识发现与利用上提供高效方便的工具,并且使得用户可方便地透过数字图书馆的多个资源库无缝获取所需的知识。以人为中心的数字图书馆研究试图进一步了解数字图书馆在增强人类在创造、探索、使用信息方面的活动中的影响和潜力,并促进为这些活动设计的技术的研究。包括:先进的高效导航系统;适用于TB级数据的高效搜索引擎;开发实用的多语言、多文字、多文化以及个性化用户界面;个性化、智能的主动服务技术; 保证藏品的安全和完整性技术;包括信息过滤系统;隐私权保护技术;实现数字图书馆群与科学数据库群内容的集成性服务;对新型媒体知识产权处理形成合乎法律框架的新的经济和商业模型;用户工具软件;基于因特网的协同工作技术和工具用户和可使用性研究,包括人-机交互、以人为中介的交流、有特殊需求的用户和机构。

    数字图书馆关键技术分6类:(1)分布式技术,如网格技术、P2P。网格是把整个网络整合成一台虚拟的巨大超级计算机,实现计算资源、存储资源、数据资源、信息资源、文献资源、知识资源、专家资源等的全面共享。总之,网格可以实现分布在全球的硬件资源、软件资源和各种信息知识资源全面的连通,达到资源的最大共享。(2)智能技术,如人工智能、知识网络、神经网络、专家系统。利用智能技术中的专家系统、语义网络等可实现:智能参考咨询;智能藏书决策(采访)、决策支持;智能分编;智能标引;智能搜索;智能信息推送等。专家系统由开发环境、咨询环境两大部分组成,四大主要部件为:知识库、推理机、用户接口、动态库(3)开放源码,如自动化系统、服务软件。开放源码(open source) 软件是一个新名词,它被定义为描述其源代码可以被公众使用的软件,并且此软件的使用、修改和分发也不受许可证的限制。开放源码软件通常是有版权(copy-right)的,它的许可证可能包含这样一些限制:着意保护它的开放源码状态,著者身份的公告,或者开发的控制。美国OSI(Open Source Initiative)是国际公认的开放源码产业模式的非官方、非赢利的社会团体,在业界具有一定的权威性。声明为“开放源码”的软件可以由OSI给予认证标志。(4)数据挖掘、数据仓库,如自建数据库、联机检索、智能标引。数据挖掘是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对于预测趋势及决策行为是十分有用的。数据仓库与数据挖掘之间的关系:数据仓库是数据挖掘的基础,数据挖掘促进并指导数据仓库的建设。(5)虚拟技术,如虚拟现实、虚拟学习( e-Learning )。提供虚拟学习、虚拟实习、虚拟考试的环境。(6)其他技术。如信息的传递技术、压缩技术;权限管理技术;WEB2.0技术;信息抽取技术;IPv6技术;数字图书馆的支撑技术(系统集成、网络、web、数据库、服务器、存储、系统安全)。

    以上描述,关于数字图书馆核心技术的比较全面系统,但关于数字图书馆关键技术的则很飘忽(有车轱辘式之嫌),笔者并不完全赞同,有部分原因是囿于自身学识,对其中若干技术知之甚少,但不容否认的是,具有重要的参考价值。数字图书馆关键技术应该是数字图书馆核心技术的真子集。任何数字图书馆建设项目只是采用部分技术,而“关键技术”也只是一个相对的变化的发展的概念。

    不当之处,敬请方家批评教正!


                                                                           2010级博士 郑燃 供稿


来源:


http://blog.sciencenet.cn/home.phpmod=space&uid=213646&do=blog&id=501174

最近更新

点击排行