关于信息组织论文(2)
关于信息组织论文篇二
学习啦在线学习网 从Archie谈网络信息组织模式
关键词:网络信息组织;Archie;元数据;标签
学习啦在线学习网 摘要:回溯网络信息组织模式的发展历程,简析历史上曾流行的网络信息组织模式存在的问题。如Archie花费用户较多的时间去检索信息、Gopher搜索信息耗费的时间较长,搜索引擎的查准率仍有待提高等。为此人们提出了元数据――一种提供关于信息资源或数据的结构化的数据,试图借助该方法来提高网络信息组织与检索。
学习啦在线学习网 中图分类号:G252文献标识码: A文章编号:1003-1588(2012)01-0080-05
前言
网络信息资源存在着分布广泛、格式多样和易于变化等特点。如何使网络信息有序化、为需求者所用是当代网络信息组织者亟待解决的问题。十多年来,研究者付出了不懈的努力,提出并实践了各种各样的组织模式。从早期的Archie和Gopher系统,到近期的搜索引擎和主题指南,都是这方面的努力成果1。每个信息组织模式的出现,都使用户以为网络信息组织的问题已被解决,但是在后来的使用中人们仍然发现存在一些问题。为此,人们提出了元数据――一种提供关于信息资源或数据的结构化的数据,试图借助该方法来提高网络信息组织与检索。
1网络信息组织任务
学习啦在线学习网 1.1 网络信息组织
随着网络覆盖范围的不断扩大以及网络技术的发展,网络信息资源以光速度传播并迅速增长。网络成为一个越来越庞大且无序的信息资源集合,时效性很难掌握和控制。网络共享性与开放性使得人人都可以借助互联网索取、存放信息,形成了一个纷繁复杂的信息世界。因此对网络信息进行组织非常必要,否则将给用户选择、利用网络信息带来很大不便。
网络信息组织是指采用一定的方法与模式,按照一定的原则将因特网上某一领域大量的、分散的、杂乱无章的、良莠不齐的信息通过搜索、评价、筛选、分析、标引、著录、排序、存贮等手段进行加工处理,使其形成一个有序的、便于用户获取与利用的信息系统的过程,其根本目的在于促进网络信息被更快捷、方便地检索与利用2。网络信息组织的结果不应仅局限于建立有序的信息空间和便于用户获取信息,还应该有利于用户理解、判断与获得知识。这就赋予了网络信息组织更多的任务。
1.2网络信息组织任务
(1)能根据语义、应用和结构需要对信息进行标记、定义、描述、验证、识别和解释。
(2)能运用逻辑、语义、语法对信息内容进行确认、指向、析取、过滤、链接、集合和重组。
(3)能根据语义关系、知识体系或用户对象对信息内容组织格式和表现形式进行标记、定义和转换。
(4)能以计算机可识别、理解和解析的方式实现上述功能,支持只能代理对信息内容及其交流处理过程的自动处理。
学习啦在线学习网 (5)能根据用户的具体需要和应用环境调整上述能力及其实现方式。能根据新的文献形式、技术能力、媒体形式和系统形态调整和发展上述能力及其实现方式3。
学习啦在线学习网 如图1表示了网络信息组织任务的模块与流程。通过此信息组织任务框架,信息将能真正根据用户在其信息活动过程中动态地获取、析取、组织、转换、集成信息。
图1信息组织任务系统
钟莹:从Archie谈网络信息组织模式*
2网络信息组织模式发展历史
学习啦在线学习网 十多年来,研究者付出了不懈的努力,提出并实践了各种各样的组织模式来序化网络信息资源,让其更好、更快地为人们服务。网络信息组织模式经历了从早期的Archie系统、Gopher系统,到后来的搜索引擎,每个信息组织模式的出现都解决了当时用户使用过程中遇到的一些问题。
2.1Archie系统
学习啦在线学习网 2.1.1Archie系统简介
Archie系统指自动追踪Inerne上匿名文件传输站点及其收藏的文件名称,并定期更新上述信息,以供用户查询的系统。我们能通过Archie服务器对Inerne上的FP服务器进行文件信息查找,从而得知该文件现在在什么地方能下载,有多大,最新版本号等4。
学习啦在线学习网 使用Archie服务器有三种途径:方法一,通过远程登录到Archie主机,用Archie注册成功后,一个Archie客户程序将自动执行,用户逐一输入指令告诉Archie想查寻的内容,Archie 将检索自己的数据库并显示检索的结果; 方法二,利用Archie客户机的程序,用户只需告诉Archie客户机程序想要的内容,该程序就自动联结到一台 Archie 服务器上申请执行查寻,并代表用户接受查寻结果输出,然后显示结果;方法三,通过邮件获得Archie服务,Archie将执行用户邮件的请求,并寄回执行结果。
学习啦在线学习网 2.1.2Archie系统优评价
Archie对FP资料库定期更新,用户联机查询时,它就直接在自己的资料库里找,而不是在Inerne资料库中查找,导致有时搜索出的文件内容和文件夹名并不相符,用户需要花时间把查到的文件都浏览确认,才能从中挑出真正有用的信息。这样,既浪费了用户的时间和精力,而且也占用了网络资源。
2.2Gopher系统
学习啦在线学习网 2.2.1 Gopher系统简介
Gopher系统是在美国明尼苏达大学(Universiy of Minnesoa)设计完成的,Gopher客户程序和Gopher服务器相连接,使用菜单结构显示其中的菜单、文档或文件,并进行索引,同时可通过elne远程访问其他应用程序。Gopher协议使得Inerne上的所有Gopher客户程序,能够与Inerne上的所有已“注册”的Gopher服务器进行对话。 Gopher是Inerne工具中最激动人心的发展之一,它使用户不必具备专门的技术水平,就能在网络中迅速找到很多资源。
使用Gopher 系统时,只需用Nescape在Address正文框中输入gopher://URL即可。Gopher菜单选项由一些链接代表,单击一个链接就可以选中一个选项。如果这个选项引导另一个菜单,那么它会在窗口中显示出来。如果它引导一个某种类型的文件,这个文件将以标准方式被传输,并且如果Nescape能够显示和播放它,就可以显示完整的信息5。随时代发展,如今的Gopher的特性很类似于信息传播系统,可以被用来传播信息,也可以被用作商业客户服务系统等。
学习啦在线学习网 2.2.2Gopher系统评价
Gopher是一个分散式文件查询系统,用户通过简单的画面选单,就能搜寻、索取资料。用户要连上某一台Gopher服务器,才能一层层进入全球各处的Gopher系统。至于各个Gopher服务器提供什么服务,就必须进入各个服务器后才知道。Gopher系统在使用上较为直观、便捷,但是搜索资料时仍然需要花费较多的时间。
2.3搜索引擎
2.3.1搜索引擎简介
搜索引擎(Search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息展示给用户的系统。
搜索引擎服务方式分为目录服务和关键字检索两种服务方式。通过目录服务方式,用户可按照分类目录找到所需要的信息。目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。应用关键字检索方式时,用户则依靠关键词(Keywords)进行查询,用户输入关键词后,搜索引擎从索引数据库中找到匹配该关键词的网页,为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
2.3.2搜索引擎评价
搜索引擎查准率比较低。目前通过搜索引擎检索的网络信息资源相关性非常差,浪费了用户大量时间去进行判断。每一个搜索引擎都有自己的检索规则,用户利用不同的搜索引擎需要不同的过程进行适应,增加了用户的负担。多数搜索引擎采用关键词检索,并提供高级检索功能,但用户很难通过组配关键词来准确表达自己的信息需求,导致检索效率低下。随着网络信息数量的指数增长,引擎数据库急剧膨胀,检索速度也将会变慢 6。
3使用元数据改进网络信息组织模式
学习啦在线学习网 研究者在这十多年进行了多种尝试,并且建立了多种网络信息资源组织模式来序化网络信息资源。然而,这些组织模式总是无可避免地存在着不同的缺陷。如Archie花费用户较多的时间去检索信息,Gopher搜索信息耗费的时间较长,搜索引擎的查准率仍有待提高等。这些组织模式都暂时无法真正满足用户对网络信息资源的使用要求,直到元数据的出现。
3.1元数据简介
3.1.1元数据及其主要形态
学习啦在线学习网 作为“描述数据的数据”,元数据是有效组织、管理、利用信息资源的一种工具。Amanda Xu 认为元数据包括用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索 7。1999年9月,国际图联将元数据定义为描述数据的数据,以及可用来协助对网络电子资源进行辨识、描述与指示其位置的任何数据 8。同年,Arlene G. aylor提出:“元数据是对信息包(Informaion package)的编码描述,元数据之目的在于提供一个中间级别的描述,使得人们据此就可以做出选择,确定孰为其想要浏览或检索的信息包,而无需检索大量不相关的全文文本。” 9
学习啦在线学习网 元数据是多样化的。随着网络技术的发展,不同领域的数据特点和应用需要,众多的Meadaa格式在不同的领域出现,呈现出不同的形态,主要包括网络资源、数字图像、连续图像、地理空间信息、社会科学数据集、档案库与资源信息等。
3.1.2描述网络信息的元数据
网络资源领域最重要的元数据是ROADS(Resource Organizaion and Discovery in Subjec-based Service),即主题信息服务的资源组织和发现。ROADS是英国高等教育系统对互联网信息资源进行收集、组织并提供检索服务的系统,其主要目标是建立一个主题信息网关平台,帮助信息服务机构快速构建能够有效组织和检索专业领域信息的系统 10。ROADS网关建立在包括ROADS记录的数据库之上,这些记录描述了网络资源,其中包括资源题名、资源拥有者、关键词等信息。同时ROADS也有一个高度可构造的开放式的软件工具箱。这些软件高度是可设置的,它提供一种极富弹性的网管管理(gaeway adminisraion)的方法,允许用户根据自己的需要设置用户界面。
学习啦在线学习网 ROADS系统利用一组元数据应用模板来定义和组织元数据,包括资源集合(Collecion)、数据集(Daase)、文件(Documen)、柏林核心元数据集(Dublin Core)、服务(Service)等。该模板基于IAA(Inerne Anonymous FP Archive)格式,可以描述不同类型的互联网资源,并且可以实现与其他元数据的映射。ROADS将关于机构、个人、代理、登录控制的元素组合成相应的元素组,供各个应用元数据模板根据实际需要复制这些元素组的相关元素。
学习啦在线学习网 3.2元数据在网络信息组织的作用
3.2.1描述作用
学习啦在线学习网 根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础 11。元数据对信息对象描述的详简程度,随所采用元数据格式不同而有所差异。
3.2.2定位作用
网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,由此便可确定资源的位置所在,促进了对网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或集合体中的位置也就确定了。
学习啦在线学习网 3.2.3搜寻作用
学习啦在线学习网 元数据提供搜寻的基础,进而在著录的过程中将信息对象中的重要信息抽出并加以组织,赋予语意,并在其中建立相互关系,使检索结果更加准确。从而有利于用户识别资源的价值,发现其真正需要的资源。
学习啦在线学习网 3.2.4选择作用
处于不同情境下,用户需要借助不同的资源去解决各种各样的实际问题。如何从海量资源库中选取适宜的资源往往就是用户首先面临的难题。应用元数据后,这个难题将得以解决:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够对信息对象进行取舍,选择合适的资源 12。
3.3网络信息组织对元数据的高度依赖
从上述元数据的作用分析可以看出,在网络信息组织中,元数据具有非常重要的作用,网络信息组织对元数据有着高度的依赖性。
3.3.1信息的描述与揭示离不开元数据
(1)使用元数据描述网络信息内容和本质特征,存储相应的检索路径,使网络信息便于被发现,提高信息资源的查全率和查准率。
(2)使用元数据提供数据之间的关系,指出相关数据的地址和存取方法。
(3)使用对网络信息资源进行分类,便于日后有效选择用户所感兴趣的信息。
学习啦在线学习网 (4)使用对某些缺少文本的数据(如声音、图像等)进行文字说明,对描述对象有一个完整的描述。
3.3.2信息的发现与选择离不开元数据
网络的迅速发展为信息资源的生成带来了极大便利,任何人都可以成为信息资源的创建者。然而,资源创建者自身素质的差异和网络出版监督机制的缺乏,造成了网络信息资源质量的良莠不齐。因此,网络信息组织的一个重要任务是通过信息资源创建者提供的简单元数据,对良莠不齐的信息资源进行严格的筛选和整合,形成高品质的信息提供给用户使用。
3.3.3信息的整合与集成离不开元数据
在网络信息资源组织中,元数据是操作数据后面的数据,它的目标是提供数据资源的全面指南。在对数据操作的每一个环节上,都有两种类型的数据在进行交换,一种是原始数据,它是用户所需要的实际数据;另一种是元数据,它为原始数据提供上下文环境。这种上下文环境可以从数据的静态或结构特征扩展到动态的或者运动的特征。元数据体系就发挥了这种整合、集成的功能,承担了各种元数据系统的转换与解释,为用户提供统一的集成服务。
学习啦在线学习网 3.4元数据的应用
学习啦在线学习网 元数据的应用范围非常广泛。Sheh等认为元数据可应用于视频、图像检索、导航和图像集合的浏览,结构化的文献管理,地理和环境信息系统,数字图书馆,支持信息存取的混合多媒体等 13。
学习啦在线学习网 以雅虎2008年推出的搜索开发平台Search Monkey为例,此搜索开发平台使用结构数据来改善搜索结果,并添加增强标记使得信息呈现得“更有意义”。具体工作原理如下(见图2)。
学习啦在线学习网 (1) 元数据被嵌入到网页中(microformas, eRDF, RDFa),雅虎抓取工具通过检索被添加到网页的元数据(而并非全文),以提供用户最佳体验为优先准则进行筛选和生成结果。
学习啦在线学习网 (2) 客户的请求服务通过XSL(Exensible Syleshee Language ransformaions,扩展样式表转换语言)从网页提取元数据。
学习啦在线学习网 (3) 元数据可由出版商自定义,但需定期审查。
图2搜索开发平台Search Monkey工作原理
学习啦在线学习网 近年,标签形式的社会性语义越来越占据主导地位,而元数据在这种新形式的信息内容表达、检索和管理方面发挥了重要作用。与专业图书馆员描述的传统主题词索引不同的是,这些社会性语义标签由用户产生,并指定给他们感兴趣的信息对象 14。以Flickr网站为例说明元数据如何实现社会性标签。Flickr是 一个图片服务网站,它提供图片存放、组群等服务。如图3所示,用户上传图片后,将会被要求给每一张图片加入标题(ile)、说明(Descripion)、标签(ag,为索引、搜索时用)。而用户所填写的描述元素便是元数据,其中“标签(ags)”可理解为该照片的关键字,搜索时便可以据此找到相对应图片。同时,当指定拍摄地点或照片的主题时,创作者也能很快了解相同标签(ags)下有哪些其他创作者所分享的照片(见图4)。
图3用户为图片添加手工元数据
图4用户根据主题搜索图片
4结语
目前网络信息资源的组织呈现多种模式并存的态势,但不容置疑的是使用元数据进行网络信息资源的组织正逐渐成为主流。这也正与信息资源组织从形式组织转至知识组织的整体发展相吻合。元数据研究的深化和发展必将为网络信息资源的有序组织、适度控制和高效检索提供更为便利的条件。我们希望能使用元数据组织方式更好地组织网络信息资源,同时通过这种方式组织的信息资源模式可以满足更多用户的需求。
参考文献:
[1][11][12]刘嘉.元数据导论[M].北京:华艺出版社,2001.
[2]谢晓专. 网络信息资源组织模式研究[J].图书情报工作, 2006( l): 64-67.
学习啦在线学习网 [3]张晓林.元数据研究与应用[M].北京:北京图书馆出版社,2002.
[4]祈晖.在Inerne上使用Archie服务[J].上海微型计算机, 1999(5): 26.
[5]黄静. Archie,Gopher,WAIS
[6]曾伟忠.搜索引擎及元搜索引擎工作原理及存在的不足[J].图书馆学刊, 2005( 5): 58-59.
[7]Amanda Xu. Meadaa Conversion and he Library OPAC[J]. he Serials Librarian, 1997 (1):179-198.
[8]IFLA. Digial libraries: meadaa resources[EB/OL] . hp://ifla.省略/II/meadaa.hm ,1999.
学习啦在线学习网 [9]Arlene G. aylor. he Organizaion of Informaion[M]. Libraries Unlimied Inc,2003.
[10]肖珑,赵亮.中文元数据概论与实例[M].北京:北京图书馆出版社,2007.
[13]Sheh,Ami,Klas,Wolfgang,ed.Mulimedia daa managemen:using medaada o inegrae and apply digial media[M].New York:McGraw-Hill Co.,Inc.,1998.
学习啦在线学习网 [14]Miao Chen,Xiaozhong Liu,Jian Qin. 从社会性标签中进行语义关系抽取――一种元数据生成方法[J].现代图书情报技术, 2009( 3): 38-45.
学习啦在线学习网
看了“关于信息组织论文”的人还看:
3.信息化管理论文