当前位置:首页 > 作文大全 >

智能搜索引擎在知识管理系统中的应用

发布时间: 2022-03-05 08:14:07 浏览:

摘要:用户在搜索引擎上进行信息查询时,并不关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中反复筛选。智能搜索技术,采用了先进的“模式识别”方法,可以根据单词或词语的使用和出现频率来识别不同文本在上下文环境中自己产生的模式。通过判断一条非结构化信息中的一种模式优于另一种模式,可使计算机了解一篇文档与某个主题的相关度。利用这种方法,可以抽取文档中的文本要素,自动识别文本的概念然后对该文本进行自动操作。这种创新的高性能模式识别算法提供了精确的文本上下文分析和概念抽取,可对信息自动分类和相互链接,从而提高信息检索的效率。

关键词:智能搜索引擎;知识管理系统;应用

中图分类号:U29-3 文献标识码:A

搜索引擎的智能化分析

智能搜索引擎是结合了人工智能技术的新一代搜索引擎。第三代搜索引擎 ,它除了能提供传统的快速检索、相关度排序等功能 ,还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能;将信息检索从目前基于关键词层面提高到基于知识(或概念)层面;对知识有一定的理解与处理能力 ,能够实现分词技术同义词技术、概念搜索、短语识别以及机器翻译技术等;具有信息服务的智能化、人性化特征;允许采用自然语言进行信息的检索 ,能够提供更方便、更确切的搜索服务。

智能搜索引擎的特征

1)智能性。智能搜索引擎可对某个特定站点或者对整个因特网自动完成在线信息的索引,它将信息检索从基于关键词层面提高到基于知识层面,再通过启发式学习采取最为有效的搜索策略,然后再从因特网上对信息进行收集、整理。智能化搜索引擎可以针对多个引擎搜索到的最终结果进行整合 ,作为一个整体存放到数据库中。智能搜索引擎可以为用户提供更为方便、更为准确的搜索服务。

2)主动性。智能搜索引擎能通过观察用户提出的要求,从用户的角度出发,获得用户的有关信息。通过自我不断的学习 ,增长智能,通过用户对返回相关信息的评价 ,不断调整自己的行为。

3)交互性。智能搜索引擎可以通过自然语言与用户交互。它采取诸如语义网络等智能技术 ,通过汉语分词、句法分析以及统计理论有效地理解用户的请求 ,并对搜索结果进行合理解释。

4)个性化。智能搜索引擎可以使搜索更为符合每个用户的要求,而不仅仅使搜索的结果准确。有效的分类可为用户提供更为个性化的服务 ,.用户可以自己定制起始页面,这样用户有就可以选择自己有兴趣的内容或者是经常使用的服务放在起始页面中。

智能搜索引擎的优势

1)搜索结果精度高。传统搜索引擎存在许多弊端,查询结果不能准确定位,过多的信息给用户带来许多不便。智能搜索引擎通过各种方法获得用户没有在查询语句中表达出来的真正用途,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精。

2)搜索范围准确。由于采用知识(概念)检索技术,将搜索范围确定的更准确,用户无需浪费时间对无用信息进行检索。同时它能支持全文检索及概念检索,使不同层次的用户的要求得到满足。

3)搜索过程交互智能。智搜索引擎在信息检索和导航服务过程中,不断的与用户进行交互,在用户提出进一步查询的线索的基础上,不断修改检索过程。

相关技术

智搜索引擎技术克服传统搜索引擎的关键字匹配的弊端。采用“模式匹配”技术。相关技术如下:

贝叶斯概率论在搜索引擎中的技术应用。

贝叶斯概率论是根据概念之间相互联系而建立其意义模型的数学方法。申农信息论为提取相关文档中最有意义的概念提供一种机制。

贝叶斯的概率主要是计算多个变量之间的概率关系以及决定一个变量影响其他变量的范围。在智能搜索引擎中利用贝叶斯概率论能够判断一个文档与指定查询或特定概念的相关性。可通过判断该文档与已知细节之间的关联,从而帮助我们的计算。作为“未来的”结果分布(适用于判断相关性)可更有效地被“已产生的”已知模型和相似性所利用。

对于文本的指定查询来讲,该理论的延伸比相关性信息更加深入。适应性概论概念模型(APCM)可分析文档中的特性之间的关系,从而发现新的概念和文档。并确定与文档集紧密关联的概念,从而对新文档准确分类。

传统的统计学论点认为:如果一枚硬币被抛100次并且每次都是正面朝上,则下次被抛出后背面朝上的几率仍然相同。而贝叶斯方法认为:100次连续正面朝上证明该硬币不均衡或者两面都是正面。用相似方法,被用户认为与特定相关的文档的知识可用来判断未来文档的相关性。APCM可使信息“繁衍”。

香农信息论在搜索引擎中的技术应用。

信息论是所有信息处理系统的数学基础。“信息”在处理中可被作为一种可计算值。

举个最基本的例子(处理单元如文字或短语彼此相互独立),根据申农的熵(平均信息量)或不确定测量,一个单元平均传送的信息量应该是:

当概率完全相同时该公式计算出最高值;这样,结果文本应该是任意的;如果不是这样,被文本传送的信息将低于最高值;也就是说有冗余。该结果通过更多复杂的数学理论进一步得到扩展,直到有单元关联。

自然语言含有高度的冗余。在一个嘈杂的房间里我们可以理解对方的谈话(虽然有些字没有听到);即使一目十行,我们也可以获取新闻文章的大意。信息论为抽取冗余中的概念提供了一个框架。

对概念模型的处理方法基于申农信息论,那就是,通信单元出现的频率越低,它所表达的信息越多。因此,上下文中处理单元出现的越少,它所预示的意思就越多。正是这一理论可确定文档中最重要的概念(或包含最多的信息)。

参考文献

[1] 张帆, 林建 .智能搜索引擎信息过滤机制研究[J].图书与情报 ,2007.

[2] 张兴华.智能搜索引擎的机理、实现技术及发展趋势[J].现代情报, 2003.

相关热词搜索: 知识管理 搜索引擎 智能 系统中的应用

版权所有:无忧范文网 2010-2024 未经授权禁止复制或建立镜像[无忧范文网]所有资源完全免费共享

Powered by 无忧范文网 © All Rights Reserved.。冀ICP备19022856号