当前位置:首页 > 心得体会 >

高校图书馆特色数据库建设技术研究

发布时间: 2022-05-13 13:05:02 浏览:

(安徽建筑工业学院 图书馆,安徽 合肥 230601)
摘 要:文章认为,特色数据库建设一直是各高校图书馆进行数字化建设的重要内容,它必须要有很强的技术支撑,涉及到信息的采集、加工、存储、检索和发布等一系列技术应用过程。
关键词:高校图书馆;特色数据库;信息化建设
中图分类号:G250.74  文献标识码:A  文章编号:1007—6921(2009)05—0126—02

21世纪是知识经济和信息化的时代,数字资源建设已经成为评价一所学校图书馆资源建设的重要标志,也是数字图书馆建设的核心,这其中尤以特色数据库建设最受关注。特色数据库是数字图书馆开展信息服务最主要的信息资源,是传统图书馆特色馆藏在数字时代的另一种表现形式。特色数据库建设需要大量的技术支持,从信息资源的采集、加工、存储、检索和发布等涉及一系列的技术应用过程。
1 信息采集技术

信息资源是构成特色数据库的主要内容和表现形式,随着多媒体技术的发展,目前可纳入数据库收录范围的信息包括文本、图像、音频和视频等多种形式,这些不同形式的资源纳入到数据库中必须经过严格的数字化技术处理,使其符合一定的标准规范。
1.1 扫描技术

这是最常用的,能够快速将大量印刷型文献进行数字化的技术。其具体做法是采用光学扫描仪、数码相机等将现有的纸介质文献经模数转换成位图。数字化文件通常以压缩形式存储,一般的数字化项目需要有多套存储方案,例如可以采用无损压缩算法的TIF格式保存一套方案,再加工一套采用有损压缩的,可供上网发布用的JPEG或GIF格式文件。
1.2 光学字符识别(OCR)

它是利用计算机软件把扫描的图像文献转换成字符文本的方法。它的工作原理是通过扫描仪(或数码相机)等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件。因此,OCR实际上是让计算机认字,实现文字自动输入。
1.3 视音频捕捉

这是对多媒体信息进行数字化的处理过程,其基本原理也是通过数字化采样而进行模数转换,设定一定的采样频率,例如通过声卡、帧捕获器或影视影像数字卡可将模拟的音频、录像材料转换成以数字方式存储的电子文档,采用标准压缩和标准格式存储其数字化资源。
2 信息加工技术

文本、图像、音频、视频信息资源加工技术一般要用到自动标引技术、人工标引技术和元数据技术。
2.1 自动标引和人工标引技术

主要涉及主题标引和分类标引。主题标引是以主题词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词或采用自然语言的词语标识主题内容,并将其组织成表达信息资源内容特征标识系统的过程。而分类标引是依据一定的分类体系,对信息记录的内容特征进行分析、判断,赋予分类标识的过程。

人工标引是直接由标引人员对信息记录进行分类标引或主题标引,赋予特定检索标识的工作,但是由于标引人员水平的不同和信息资源所存在的语义上的歧义,造成同一篇文献不同人员的标引不一致。而自动标引技术则以主题词表和分类表为基础,为标引人员自动生成主题和分类,并且可以对人工标引进行校对。
2.2 元数据技术

元数据是描述和限定其它数据的数据,它的应用领域非常广泛,在特色数据库建设的信息加工过程中,也要用到元数据技术。元数据在数据库中的功能是描述和定位信息资源(包括文献全文数据、图像、音频和视频资源等),标准的元数据描述可以使分散的异构网用户分享和再利用不同类型的数据。
3 信息存储技术

信息存储是对加工后的信息进行科学有序的存放、保管,以便使用的过程。它包括两层含义:①将加工后的信息按照一定规则,记录在相应的信息载体上;②将这些信息载体,按照一定的特征和内容性质组成系统有序的、可供自己或他人检索的集合体。传统的信息存储技术有印刷存储、缩微存储、磁存储、半导体存储和光盘存储,在网络环境下,信息的存储已成为网络设计中的一个重要的环节。目前,数字化信息资源的存储技术主要有以下几种:
3.1 直接连接存储(DAS)

它的原理是存储器通过一个通用服务器连接在网络上,存储器与服务器之间通过传统的I/O总线通信。客户机如需要访问存储器的数据,首先必须给文件服务器发送一个请求消息,文件服务器解析这个请求并给存储器发送访问消息,存储器访问数据并发送至文件服务器的内存,最终由服务器把数据传给客户机。
3.2 网络连接存储(NAS)

NAS是一种独立地直接存储的联网方案,它转变“以服务器为中心”的存储方案为“以数据为中心”的智能网络服务器方案。它是基于LAN的,按照TCP/IP协议进行通信,面向消息传递,以文件的I/O方式进行数据信息传输。
3.3 存储区域网络(SAN)

SAN是一种数据存储设备及服务器间通信的专用网络,能够提供几乎无限的信息交换能力。存储区域网上的服务器可以通过SAN直接访问存储设备,而无需通过局域网。SAN是一种几乎拥有无限存储空间的分布式网络,非常适合作为特色库存储系统的核心。
4 信息检索技术

信息检索是从按一定方式组织的信息存储中将满足用户需求的信息提取出来并提供给用户使用的过程,传统的信息检索是从数据库中检索出用户所需的信息。在网络环境下,信息组织和信息存储形式发生了较大的变化,信息检索技术也包括了更为丰富的内容。目前适用于数字图书馆研究的几种信息检索技术有:
4.1 全文检索技术

它是以文本数据为主要处理对象,实现内容信息存储与检索的技术。在全文检索系统中,任何有意义的词或字串都可以被检索出来。全文检索以完整的原始文本信息作为检索对象,通过建立全文数据库,利用计算机抽取标识符,建立索引,使检索系统不仅具有布尔逻辑检索功能,还具有详细的文内检索功能。
4.2 智能检索技术

智能检索技术主要体现在语义理解、知识检索和知识管理三个方面。它利用语义分析模块自动智能分词,进行用户请求和知识库“数据”的语义理解,最终把知识库中匹配的信息筛选、整序后提供给用户。
5 信息发布技术

信息发布技术是指用户从网上获取信息的方式为“页面浏览——信息阅读、下载”的方式。从服务器发布信息的方式可以将网上信息发布技术分为被动方式和主动方式两种。传统的WEB信息发布方式使用的是PULL技术,是一种被动信息发布技术,服务器将更新的信息在页面上进行公布,用户在浏览页面时将感兴趣的信息从服务器“拖”到本地。主动信息发布技术是指服务器可将及时更新的信息主动、及时地发送到客户端桌面的技术。WEB上的信息推送技术是一种主动信息发布技术。

信息推送(PUSH)技术:就是数字图书馆运营商通过一定的协议,从服务器上的信息源或信息制作商那里获取信息,再通过固定的频道向用户发布信息的技术。它是根据用户对信息的需求,有针对性和目的性,将用户所需信息主动送达用户。其基本工作流程:首先用户填写订阅单,其中包括用户个人档案,所需信息类型以及需要推送的时间等相关内容,并提交给信息提供商;然后信息提供商按用户的订阅单收集相关信息,并由PUSH服务器推送给用户,客户部件获取信息完毕后告知用户可读取信息。其内容:①直接将信息源中的信息本身送给用户;②只将有关信息的目录或索引通知发送给用户,由用户根据通知去查询相应的信息。
高校特色数据库建设是一项较为复杂的系统工程,尤其是资源种类较为繁多,提供服务方式多样,用户数众多的数据库,必须严格进行技术选型,并且符合一定的行业技术标准和规范,使其真正称为一个发挥巨大价值的知识宝库。
[参考文献]
[1] 范明泉.高校图书馆特色数据库建设的思考[J].大理学院学报,2008,(1):50~52.
[2] 赵燕.高校图书馆特色数据库建设探讨[J].情报探索,2008,(7):60~61.
[3] 张殿雨.论高校图书馆自建特色数据库建设[J].中国成人教育,2008,(4):66~67.

相关热词搜索: 技术研究 图书馆 特色 高校 数据库

版权所有:无忧范文网 2010-2024 未经授权禁止复制或建立镜像[无忧范文网]所有资源完全免费共享

Powered by 无忧范文网 © All Rights Reserved.。冀ICP备19022856号