??xml version="1.0" encoding="utf-8" standalone="yes"?>亚洲国产精品无码久久久秋霞1,国产成人va亚洲电影,亚洲av无码专区亚洲av不卡http://m.tkk7.com/hjh132/archive/2008/04/16/193586.html101℃太?/dc:creator>101℃太?/author>Wed, 16 Apr 2008 14:40:00 GMThttp://m.tkk7.com/hjh132/archive/2008/04/16/193586.htmlhttp://m.tkk7.com/hjh132/comments/193586.htmlhttp://m.tkk7.com/hjh132/archive/2008/04/16/193586.html#Feedback0http://m.tkk7.com/hjh132/comments/commentRss/193586.htmlhttp://m.tkk7.com/hjh132/services/trackbacks/193586.html     |络信息(g)索已成ؓ(f)我们获取信息主要手段。根据CNNIC的统计数据[1]Q目前中国用户上|的最主要目的中,信息获取?2.3%位居榜首Q有98.7%的h表示通过互联|来获取信息Q其中有71.9%的h是通过搜烦(ch)引擎来查扄关网站的。然而网l信息检索面临两个亟待解决的关键问题Q?br />     (1)搜烦(ch)的结果相兛_低,冗余信息太多Q?br />     (2)搜烦(ch)引擎无法对常识性问题给予回{,化水q低?br />     出现上述问题的原因在于目前检索技术主要依赖于~码技术,通过分类模式来描q给定的信息Q通过Z字符串匹配的全文(g)索技术,来搜索用h交的关键词。由于编码描q只能反映出部分语义Q因此不能保证语义的匚wQ检索过E是把用L(fng)查询关键词与全文中的每一个词q行比较Q而不考虑查询h与文语义上的匹配。针对上qC个关键问题,本文q用本体论的相关知识Q提出基于本体构建的语义搜烦(ch)引擎模型。该模型能够Ҏ(gu)用户的查询关键字或者询问问题,q行Z知识的推理,从而提高检索结果的相关度,q且实现一定水q的语义(g)索?br />       2 本体?br />       2.1 本体的概?br />     本体q个术语来自于哲学,Ҏ(gu)韦氏词典的解释,本体是Ş而上学的一个分支。目前本体在人工领域得到q泛研究和应用,但尚未Ş成统一的定义,最qؓ(f)传的定义有[2]Q?br />     定义1Q本体是对共享概忉|型的形式化明说明。它有几个要点:(x)
    ★ 概念模型(conceptualization)Q指通过抽象客观世界中一些现?Phenomenon)的相x(chng)念而得到的模型Q其表示的含义独立于具体的环境状态;
    ★ 明确(explicit)Q指所使用的概念及(qing)使用q些概念的约束都有明的定义Q?br />     ★ 形式?formal)Q指Ontology是计机可读的;
    ★ ׃n(share)Q指Ontology中体现的是共同认可的知识Q反映的是相关领域中公认的概念集Q它所针对的是团体而不是个体?br />     单地_(d)本体l出构成相关领域词汇的基本术语和关系Q以?qing)利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识Q提供对该领域知识的共同理解Q确定领域内通用的词汇,q给?gu)些词汇(术语Q和词汇之间怺关系的明定义?br />     定义2Q本体论是关于词汇或概念的理论,q些诃汇和概는于构Zh工智能系l。该定义认ؓ(f)Q本体实际上是一U表C性的词汇Q这U词汇可以应用于特定领域。比如电(sh)子设备领域的本体Q它包含一些描q基本概늚词汇——晶体管Q运放大器Q电(sh)压等Q也包含q些基本词汇间的关系——运放大器是电(sh)子设备的一U,而晶体管是运放大器的组件。一般来_(d)识别q种词汇和潜在的概念需要仔l分析领域内存在的各U对象和关系。这一定义描述的本体徏设方法与面向对象Ҏ(gu)有一定的共通之处?br />     定义3Q本体论是用来定义某一领域的知识主体。该定义认ؓ(f)Q本体是描述某个领域的知识,它不仅仅是简单的词汇表,而是整个上层知识库(包括用于描述q个知识库的词汇Q?br />     lg所qͼ本体是某个领域内Q可以是特定专业的,也可以是宽泛范畴的)(j)不同MQh、代理、机器等Q之间进行交(对话、互操作、共享等Q的一U语义基Q即由本体提供定义明的词汇表,描述概念和概念之间的关系Q作Z用者之间达成的p?br />       2.2 本体的作?br />     本体的作用可归结为通讯(communication)、互操作(interoperability)和系l工E?systems engineering)?br />     (1)所谓通讯是指本体Zh与h之间或组l与l织之间的通讯提供共同的词汇,即交的基础?br />     (2)互操作说明本体徏立了(jin)在不同的建模Ҏ(gu)、范式、语a和Y件工具之间进行翻译和映射的机Ӟ以实C同系l之间集成?br />     (3)pȝ工程Q本体分析能够ؓ(f)pȝ工程提供以下斚w的好处:(x)
    ★ 重用(reusability)Q本体是领域内的重要实体、属性、过E及(qing)其相互关pdŞ式化描述的基。这UŞ式化描述可成Y件系l中可重用和׃n的组?component)?br />     ★ 知识获取(knowledge acquisition)Q当构造基于知识的pȝӞ用已有的本体作ؓ(f)L(fng)和基来指导知识的获取Q可以提高其速度和可靠性?br />     ★ 可靠?reliability)Q由于本体的描述是Ş式化的,形式化的表达使得自动的一致性检查成为可能,从而提高(sh)(jin)软gpȝ的可靠性?br />     ★ 规范描述(specification)Q本体分析有助于定pȝQ如知识库)(j)的需求和规范?br />       3 Z本体语义搜烦(ch)引擎
      3.1 Z本体搜烦(ch)引擎的设计思想
    本体提供?jin)hZ的机制Q得机器可以理解语义,从而ؓ(f)搜烦(ch)引擎提高效率奠定?jin)基?br />     Z本体的搜索引擎的基本设计思想Q?br />     (1)在领域专家的帮助下,建立相关领域的本?Ontology)Q?br />     (2)攉信息源中的数据,q参照已建立的OntologyQ把攉来的数据按规定的格式存储在元数据库(关系数据库、知识库{)(j)中:(x)
    (3)对用h索界面获取的查询hQ查询{换器按照Ontology把查z请求{换成规定的格式,在Ontology的帮助下从元数据库中匚w出符合条件的数据集合Q?br />     (4)(g)索的l果l过定制处理后,q回l用戗?br /> 3.2 知识?br />     实现Z本体的语义搜索引擎,建立知识库是必需的。知识库是语义搜索引擎进行推理和知识U篏的基和关键,而Ontology则是知识库的基础。一般来_(d)本体提供一l术语和概念来描q某个领域,知识库则使用q些术语来表达该领域的事实。例如医药本体可能包?#8220;白血?#8221;?#8220;皮肤?#8221;{术语的定义Q但它不?x)包含具体某一病h的诊断结果,而这正是知识库所要表辄内容。比如张三?zhn)有皮肤病、李四?zhn)有皮肤病和白血病、王五?zhn)有白血病,其中的皮肤病、白血病就是本体。而各个病症的实例Q张三、李四、王五)(j)?qing)其病症描述是知识库的内容?br />     本体和知识库的关pL几个要点Q?br />     ★ Ontology为知识库的徏立提供一个基本的l构Q?br />     ★ Ontology提供一套概念和术语来描q某一领域Qƈ且获取该领域的本质的概念l构Q?br />     ★ 知识库就q用q些术语去表辄实或者虚拟世界中的正知识?br />     因此Q徏设一个知识库的第一步就是对该领域进行有效的Ontology分析?br />       3.3 构造本?br />     本体的构造是整个ZOntology的信息检索系l的底层基石Q决定着pȝ的性能、通用E度以及(qing)pȝq行的质量。如何正、有效、合乎逻辑的徏立本体是q个pȝ建立的关键?br />       (1)本体的构造准?br />     对同一领域Q同一事物Q不同h往往?x)徏立不同的本体。由于本体应该是规范化的描述Q因此遵循统一的构造准则是必要的。目前最为常用的是Gruber提出的指导本体构造的5个准则,[3]卻I(x)
    清晰(Clarity)Q本体必L效的说明所定义术语的意思。定义应该是客观的,与背景独立的。当定义可以用逻辑公理表达Ӟ它应该是形式化的。定义应该尽可能的完整。所有定义应该用自然语言加以说明?br />     一?Coherence)Q本体应该是一致的Q也是_(d)它应该支持与其定义相一致的推理。它所定义的公理以?qing)用自然语言q行说明的文都应该h一致性?br />     可扩展?Extendibility)Q本体应该ؓ(f)可预料到的Q务提供概念基。它应该可以支持在已有的概念基础上定义新的术语,以满特D的需求,而无M改已有的概念定义?br />     ~码偏好E度最?Minimal encoding bias)Q概늚描述不应该依赖于某一U特D的W号层的表示Ҏ(gu)。因为实际的pȝ可能采用不同的知识表C方法?br />     本体U定最?Minimal ontological commitment)Q本体约定应该最,只要能够满特定的知识共享需求即可。这可以通过定义U束最q公理以及(qing)只定义通讯所需的词汇来保证?br />       (2)本体的表C?br />     目前有两U本体表C方法应用比较广泛,一是传l的四元素表C方法、二是较新的六元l表C法。前者在世界范围内得C(jin)比较高的认同Q但是Ş式过于灵z,不易掌握。后者因为定义规范,可操作性强Q得C(jin)q大国内研究者的Ƣ迎?br />     ★ 四元素表C方?br />     四元素表C方法的基本思想是;一个本体中的四个主要元素是Q概?concepts)、关p?relations)、实?instances)和公?axioms)?br />     概念表示某个领域中一cd体或事物的集合。通常概念可以分成两大c,一cL单概?primitive concepts)Q另一cL详细概念(defined concepts)。简单概忉|那些只具备必要条Ӟ卛_性)(j)的类成员Q注Q英文原文:(x)Primitive concepts are those which only have necessary conditions(in terms of their properties)for membership of the class.Q。详l概忉|指对cL员的描述既充分又必要Q注Q英文原文:(x)Defined concepts are those whose description is both necessary and sufficient for a thing to be a member of the class.Q。例如:(x)“正方形是四个角都是直角的四边?#8221;是一个简单概c(din)?#8220;正方形是四个角都是直角的四个边等长的四边?#8221;是一个详l概念,因ؓ(f)四个边等长是正方形的充分且必要条件?br />     关系描述概念和概念属性的交互?br />     实例是概念表C的具体的事物,如对于大学这个概念,׃大学是一个实例。严格的_(d)一个本体不应该包括M实例Q因为它被假设ؓ(f)一个具体领域的概念化。一个本体与相关的实例的l合是我们如今所U呼的知识库(knowledge base)?br />     公理是用来限制类和实例的取D_(d)公理中包括许多具体的规则和约束?br />     ★ 六元l表C法
    q种Ҏ(gu)的基本思想是用一个六元组来表CZ个本体?br />     An Ontology=?jng)C,AC,R,AR,H,X?br />     其中C表示概念的集合。AC表示多个属性集合组成的集合Q其中每个属性集合对应于一个概c(din)R是一个关p集合。AR是由多个属性集合组成的集合Q其中每个属性集合对应于R中的一个关pRH表示概念之间的层ơ结构关p,X表示公理集合?br />     Z(jin)深入描述本体的表C方法,以下列出?jin)一个家庭本体描q实例?br />     Family_Ontology=?jng)Cfamily,ACfamily,R family,ARfamily,H family,X family}where
    Cfamily=?jng)father,mother,children?br />     ACfamily=?jng)ACfamily(father),ACfamily(mother),ACfamily(children)?br />     ACfamily(father)=?jng)name,age,job,salary,……?br />     ACfamily(mother)=?jng)name,age,job,salary,……?br />     ACfamily(children)=?jng)name,age,sex,……?br />     R family=?jng)TakeCareOf(mother,mother,children),
    Educate(father,mother,children),
    Help(children,mother),……?br />     ARfamily =?jng)ARfamily(TakeCareOf),ARfamily(Educate),ARfamily(Help),……?br />     ARfamily(TakeCareOf)=?jng)feed,clothing,seeDoctor,……?br />     ARfamily(Educate)=?jng)teach,exercise,……?br />     ……
 (3)本体的构造的生命周期
    ?jin)解了(jin)本体徏讄准则和方法论之后Q下一步就是要着手徏立本体。而徏立的q程可以用生命周期的概念来描q。Uschold & Gruninger提出?jin)一个本体构造的Ҏ(gu)学框架[4]Q图1Q,框架包括以下l成部分Q?br />     首先要明本体用的目的和范_(d)然后依次构造本体。构造本体过E可以分Z个阶D:(x)
    本体捕获是定关键的概念和关系Q给出精定义,q确定其它相关的术语Q本体编码即选择合适的表示语言表达概念和术语;已有本体的集成是对已有本体的重用和修攏V这个阶D也是一个@环往复的q代q程?br />     最后是评估阶段Q要Ҏ(gu)需求描q、能力问?competency question){对本体以及(qing)软g环境、相x(chng)档进行评仗?br />     附图
      ? 本体建造的程
      3.4 Z本体的语义搜索引擎模型简?OntoSSE,ontology-based Semantic Search Engine)
    OntoSSE是基于本体的搜烦(ch)引擎Q它能够实现语义搜烦(ch)、知识检索和一定的推理功能。本模型假设搜烦(ch)引擎存在的环境是web|页Q这些网ƈ未自动含有语义标记?br />     此系l也应具备搜索引擎的各种基本的功能,比如|页的遍历和获取、烦(ch)引的建立、页面查扄法等Q都可以参考目前流行的搜烦(ch)引擎的结构和实现q程?br />     OntoSSE的重要之处是信息库和知识库的交流。知识库是实现智能搜索的核心(j)Q它如同人的大脑Q其增长也需要一U自然的循环。知识库的丰富也军_着(g)索能力和Question-Answer能力的高?sh)。信息库是知识库存在和发展的I间Q知识库是对信息库的判断、提取、分析和概括。智能搜索引擎就是通过知识库把用户的问题提高到知识层面Q然后利用这个知识检索信息库。[5]二者的有机l合M开语义分析和知识管理。因此,Ontology作ؓ(f)语义分析和知识共享和重用的重要基Q与知识库、信息库一h成OntoSSE的三大支柱?br />     ?展示?jin)基于本体的语义搜?ch)引擎OntoSSE的系l结构及(qing)其工作流E。OntoSSE模型的工作原理和(g)索步骤可以概括如下:(x)
    (1)搜烦(ch)引擎通过自动|页采集?web spider)来抓取网,参照特定词表网信息分cd立烦(ch)引,加入索引库中?br />     附图
      ? OntoSSE的体pȝ构及(qing)其工作流
    (2)׃h工、自动或者半自动的方式,建立领域或者通用的本体?3)参照本体Q用本体描q语a(DAML、RDF)Ҏ(gu)进行标注?4)标注的文?RDF Triple)相当于一个本体的实例Q它被存攑֜知识库中?5)用户以自然语a输入查询hQ这U请求可能是关键字,或者一个问题?6)查询qo(h)器(分析器)(j)对用L(fng)查询hq行语义分析Q提取出相关属性的倹{?7)(g)索代理结合RDF Triple中体现的cd关系信息以及(qing)由查询过滤器提交的属性|q行逻辑推理Q生成查询实例?8)查询实例被传往信息数据库,在不同目录中查找Qƈ结果处理后q回l用戗例如,如果我们要检?#8220;微Y总裁是谁”Q将q个问题输入模型以后Q查询过滤器Ҏ(gu)分词技术,q行语义理解Q分析出该句子的语义实际表示?#8220;有某个名?#8216;职务’的属性其值是‘微Y总裁’”。而通过本体和知识库Q系l通过推理Q可以知道在名ؓ(f)“?#8221;的类中有名ؓ(f)“职务”的属性,q样Q在q行语义推理Ӟq成一个h的类的实例,其中有属?#8220;职务Q微软总裁”Q而通过知识库得知,q个实例的名字属性ؓ(f)“Bill Gate”。这Ӟ我们p得了(jin)“Bill Gate”的答案。最后,我们q可以从信息库和知识库中(g)索与比尔盖茨相关的各U潜在信息?br />     可见OntoSSE模型可实现本体对搜烦(ch)引擎三个斚w的改q:(x)提高l果相关度、语义推理功能和知识(g)索?br />       4 l束?br />     通过本体支持语义Q支持hZ间的交流Q从而实现机器智能,为web的发展带来了(jin)新的契机。而本体在搜烦(ch)引擎中的应用Q必对搜烦(ch)引擎的易用性和效率Q生极大的改进Q从而得web用户能够更好的在如烟v的信息vz中遨游?
【参考文献?br />     1 中国互联|络信息中心(j).W十四次中国互联|络发展状况l计报告[R].2004/7
    http:llwww.cnnic.net.cn/
    2 Ontologies-Description and Applications.http://wiki.w3china.org/wiki/index.php
    3 Gruber T.Towards principles for the design of ontologies used for knowledge sharing.International Journal of Human-Computer Studies 1995,43(5/6):907-928
    4 Uschold M.Building Ontologies:Towards UnifiedMethodology[J].Inexpert systems 96,1996 (3)
    5 吴丹.搜烦(ch)引擎的智能化研究[J].情报理论与实践,2002(4)

]]>
成功人士必看?个故?/title><link>http://m.tkk7.com/hjh132/archive/2008/03/08/184768.html</link><dc:creator>101℃太?/dc:creator><author>101℃太?/author><pubDate>Sat, 08 Mar 2008 15:43:00 GMT</pubDate><guid>http://m.tkk7.com/hjh132/archive/2008/03/08/184768.html</guid><wfw:comment>http://m.tkk7.com/hjh132/comments/184768.html</wfw:comment><comments>http://m.tkk7.com/hjh132/archive/2008/03/08/184768.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://m.tkk7.com/hjh132/comments/commentRss/184768.html</wfw:commentRss><trackback:ping>http://m.tkk7.com/hjh132/services/trackbacks/184768.html</trackback:ping><description><![CDATA[     摘要: 如果你想成功Q又不知如何才能成功Q这文章能l你一些提C?nbsp; <a href='http://m.tkk7.com/hjh132/archive/2008/03/08/184768.html'>阅读全文</a><img src ="http://m.tkk7.com/hjh132/aggbug/184768.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://m.tkk7.com/hjh132/" target="_blank">101℃太?/a> 2008-03-08 23:43 <a href="http://m.tkk7.com/hjh132/archive/2008/03/08/184768.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>语义搜烦(ch)引擎lDhttp://m.tkk7.com/hjh132/archive/2008/02/26/182333.html101℃太?/dc:creator>101℃太?/author>Tue, 26 Feb 2008 15:02:00 GMThttp://m.tkk7.com/hjh132/archive/2008/02/26/182333.htmlhttp://m.tkk7.com/hjh132/comments/182333.htmlhttp://m.tkk7.com/hjh132/archive/2008/02/26/182333.html#Feedback2http://m.tkk7.com/hjh132/comments/commentRss/182333.htmlhttp://m.tkk7.com/hjh132/services/trackbacks/182333.html 1Q网l搜索引擎的现状
        搜烦(ch)引擎在互联网的重要地位由来已久。Yahoo 作ؓ(f)门户|站奇迹般崛h依靠的正是搜索引擎,Google 也以搜烦(ch)引擎的技术创新、竞h名和专业风格创造了(jin)新的奇迹。在国内Q百度也在很短的旉里凭借搜索引擎取得很大成功?
搜烦(ch)引擎技术及(qing)业务模式的持l创斎ͼ不仅Z联网注入?jin)活力,而且其自w的价值正被重新审视和评估。互联网的发展得信息短~的问题被信息泛滥所取代Q世界也已从信息时代走进信息l济时代Q这两者的区别在于Q前者强调信息本w的价|只要解决信息资源短缺׃(x)带来价值的提升Q后者认Z息ƈ不稀~,只有通过对信息的甄别、加工提U和挖掘才能带来价值的提升?
据中国国家互联网中心(j)QCNNICQ?005q?月发布的W?5ơ互联网发展l计报告[[1]]Q我国的|络用户?400万hQ比2004q?月发布的14ơ报告又增加?00万。在用户l营使用的网l服务中Q搜索引擎仅ơ于?sh)子邮箱排在W?位。有98.5%的用户上|最主要的是获取信息Q通过搜烦(ch)引擎获取信息的占70.7%Q搜索引擎成为未知状态下发现有效信息的最有效方式?
2Q网l搜索引擎的工作原理
搜烦(ch)引擎的原理,可以看作三步Q?

         1Q从互联|上抓取|页
利用能够从互联网上自动收集网늚SpiderpȝE序Q自动访问互联网Qƈ沿着M|页中的所有URL爬到其它|页Q重复这q程Qƈ把爬q的所有网|集回来?
         2Q?建立索引数据?
由分析烦(ch)引系l程序对攉回来的网进行分析,提取相关|页信息Q包括网|在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大、与其它|页的链接关pȝQ,Ҏ(gu)一定的相关度算法进行大量复杂计,得到每一个网针寚w面文字中?qing)超链中每一个关键词的相兛_Q或重要性)(j)Q然后用q些相关信息建立|页索引数据库?
         3Q在索引数据库中搜烦(ch)排序
当用戯入关键词搜烦(ch)后,由搜索系l程序从|页索引数据库中扑ֈW合该关键词的所有相关网c(din)因为所有相关网针对该关键词的相关度早已算好,所以只需按照现成的相兛_数值排序,相关度越高,排名靠前。最后,由页面生成系l将搜烦(ch)l果的链接地址和页面内Ҏ(gu)要等内容l织hq回l用戗?
3Q网l搜索引擎的评h(hun)指标
评h(hun)搜烦(ch)引擎的主要指标有查全率、查准率、响应时间、覆盖范围、用户用方便性等{?
         1Q查全率QRecallQ?
查全率又叫召回率Q是指检索出的相x(chng)占全部相关文的比率。即用户通过搜烦(ch)引擎所获取的有用信息与整个Internet中相关信息的比率?
         2Q查准率QPrecisionQ?
查准率是指获取的相关文档与获取文的比率。即用户通过搜烦(ch)引擎所获取的真正是用户需要的信息占获取信息的比率。搜索引擎的查准率是个复杂的概念Q一斚w表示搜烦(ch)引擎Ҏ(gu)索结果的排序能力Q另一斚w却体C(jin)搜烦(ch)引擎对垃圄늚抗干扰能力?
         3Q响应时_(d)Response TimeQ?
响应旉是指用户发出查询h后到看到查询l果的这D|间?
         4Q覆盖范_(d)CoverageQ?
覆盖范围是指搜烦(ch)引擎索引的Web面占整个Internet中页面的比例?
         5Q用h便性(ConvenienceQ?
用户方便性包括查询接口是否直观、易于用、查询语法是否丰富,昄l果是否易于查看{?
4Q网l搜索引擎的主要技?br /> |络搜烦(ch)引擎做ؓ(f)信息(g)索系l的一个分支,理所当然的涉?qing)到信息(g)索方面的技术,同时它做Z个独立、成熟的领域也有自己的技术空_(d)(x)
         1Q目录检索和全文(g)?
           传统的搜索引擎一般用两U技术来实现信息(g)索:(x)
           一是用网站分cL术实现目录检索,x(chng)|站q行?wi)状的归c,登陆的网站属于至一个类别,Ҏ(gu)个站炚w有简略的描述。Yahoo采用?jin)这U方法。ؓ(f)?jin)分cȝ学准,需要有一支各Uh才组成的l护队伍?
           二是使用全文(g)索技术。全文检索技术处理的对象是文本,它能够对大量文建立由字Q词Q到文档的倒排索引Q在此基上,用户使用关键词来Ҏ(gu)进行查询时Q系l将l用戯回该关键词的|页?
         2Q烦(ch)引文件结?
         全文(g)索的两个关键技术是索引和检索。检索又是基于所建立的烦(ch)引结构进行的。烦(ch)引文件主要分为正向烦(ch)引和倒排索引。正向烦(ch)引是Z文档的,每一个文对应一个烦(ch)引文Ӟ其中记录着q个文中出现的词。倒排索引是基于词汇表的,每一个特征词对应一个倒排索引Q其中记录着所有出现过q个词的文档。目前,技术比较成熟、也是公认效率较高的索引存储l构是倒排文g。需要明的是,中文的构词方式、句法、语法都与英文有很大区别Q因此,不同于英文全文检索的索引Ҏ(gu)Q中文全文检索中主要的徏立烦(ch)引方法是字烦(ch)引和词烦(ch)引。字索引保证?jin)高的召回率Q不?x)出现漏查错误,但是会(x)出现多查和误查。检索结果中?x)出C与(g)索意图无关的条目。另外,Z字烦(ch)引的全文(g)索的(g)索效率也比较低。而词索引保证?jin)较高的查准率和(g)索效率,但是׃中文分词能力的局限,DZ词烦(ch)引的全文(g)索必定会(x)存在漏检情况。另外,对于未登陆词Q词索引昑־力不从心(j)。现存比较实用的中文信息(g)索系l一般都l合使用?jin)字词؜合?ch)引,或者扩展的词烦(ch)引,来保证召回率和查准率?
           |络搜烦(ch)引擎׃各自的策略不同,在选择索引对象的内Ҏ(gu)也有不同。有些搜索引擎对于信息库中的面建立全文索引Q有些只建立摘要部分Q或者每个段落前面部分的索引Q还有些搜烦(ch)引擎Q如GoogleQ徏立烦(ch)引的时候,同时考虑文本的不同标记所表示的不同含义。如_体、大字体昄的东西往往比较重要Q放在锚链中的信息往往是它所指向面的信息的概括Q所以用它来作ؓ(f)它所指向的页面的重要信息。GoogleQInfoseekq在建立索引的过E中攉面中的链接。这些超链接反映?jin)收集到的信息之间的I间l构。利用这些结果信息可以提高页面相兛_判别时候的准确度?
           3Q数据源文g的分布策?
          搜烦(ch)引擎的数据源文g主要包括索引文g和原文。目前,数据源文件的分布{略主要有集中存攑֒分布式存放。文献[2]指出Google是采用?jin)集的方式集中存放数据源文Ӟ事实上,几乎所有的商业搜烦(ch)引擎都采用集中存攄方式Q这是因为分布式存放{略有一个硬伤,是搜烦(ch)h从一个端点传送到另外一个端Ҏ(gu)耗的旉让用户难以忍受。但是,随着互联|上信息的急剧膨胀Q改q后的分布式{略是最l的解决Ҏ(gu)?
          4Q烦(ch)引大文g的存攄?
         倒排文g是一个大文gQ这是因为倒排文g中存攄记录QHitQ表C的是文中出现本特征词的状c(din)目前的商业搜烦(ch)引擎的文集中的文数量非常之大Q因此倒排文g的记录数也会(x)很大Q最l导致倒排文g的尺寔R常大?
         对于大文仉先考虑的是压羃Q像是Google存放的烦(ch)引文件就是经q压~的。好的压~算法同时要求压~比可能高、查扑֎~文件容易、解压羃旉短。即使压~之后的文g仍然大到不能以独立的文g形式存放Q目前有两种分离大文件ؓ(f)多个文件的{略Q?
         一是基于文档集的分R主要是文档集分成有限个子集,对于每一个子集徏立各自的索引文gQ检索过E就演变?sh)对多个文子集的检索,最后做的合q处理?
         一是基于烦(ch)引文件的分离。即是将索引大文件分为有限个子文Ӟq设计一张表记录q种分离情况Q当要检索这个烦(ch)引文件时查找这张表Q根据表的记录去查找每一个子文g。文献[3]指出Google烦(ch)引大文g分离q个文Ӟ每一个小文g都以独立的linux文g存放Q通过linuxpȝ理q些文Ӟq正是这个策略的一U表现?br />          5Q排序算?
各种搜烦(ch)引擎的技术改q和优化Q都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研I新的排序方法,来提升客L(fng)满意度。目前,不同搜烦(ch)引擎Z不同的搜索策略设计有多种不同的排序算法,以GoogleZQ它采用很多U排序算法支持搜索结果,其中最典型的代表有PageRank和HillTopQ这两种都属于超链接分析技术?
5Q语义搜索的兴v
目前实用化的信息(g)索系l主要基于h工分cȝ录或关键词匹配。前者对量信息资源的揭C的效率不高、深度有限;后者在信息的语义和语用的揭CZ有局限性。信息检索系l在处理能力上的~ZQ导致这些工兯q不能满用L(fng)需求。如何解军_诸如信息l织、知识表C、机器理解与人机交互{问题,对于提高?sh)息利用的效率,是非帔R要和q切的。近q来Q语义网的提Zؓ(f)解决q些问题提供?jin)锲机,׃语义|中的资源被l构化,能被计算机所理解和识别,q样提供?jin)改q传l搜索技术的Z(x)。语义检索的目的是通过从语义网上获取的数据增强q改q传l的搜烦(ch)l果(Z信息(g)索技?。它实现?jin)用h索请求的本体化,整个搜烦(ch)引擎像领域专家一P不仅l出查询l果Q还l出?jin)与(g)索请求相关的资源Q大大提高检索的_ֺ和覆盖率Q实C(jin)本体层次的检索,H破?jin)关键词(g)索局限于形式的固有缺陗它的出现提高(sh)(jin)用户的满意度Q减了(jin)不相关的q回l果Q提高(sh)(jin)(g)索的_ֺ和覆盖率?
最初h们通过代表语义的HTML标签来改造网,主要有GDApȝ?br /> SHOE(SimpleHTMLOntologyExtensions)pȝ{。但q些pȝ的不x(chng)仅能处理l过HTML标签攚w的|页?
XML是非常有前途的语言Q因为它?yu)网늚内容、结构和描述分离Qƈ且非帔R合知识的描q。但是XML通过它的句法l构仅能描述一些语义属性?
语义|络的徏立得以语义为基的搜索引擎同时可以徏立v来。在语义搜烦(ch)引擎中,每一个查询都在一些本体的上下文范围内执行Q来自本体的一些指南可以提高检索的准确性。在语义(g)索中Q用的是概念匹配,卌动抽取文的概念Q加以标引,用户在系l的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,卛_配在语义上相同、相q、相包含的词语?
6Q语义搜索当前的应用
当前Zontology 的语义检索系l已l得C(jin)q泛的关注和应用Q出C(jin)一pd优秀的应用系l,其中典型的有两个QSWOOGLE——语义网中的Z蜘蛛|的(g)索系l,pȝ从每个搜索到的文本中抽取本体Q根据本体之间的相关度来比较文本之间的关p;TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning)Q该pȝҎ(gu)查找的本体在|页上爬行,军_哪种|页最满需求。特别的QTUCUXI 判断文的相x(chng)是同Map of Meanings 比较用户所查询的相x(chng)体。Map of Meanings 语义丰富Q用来对资源文本的表达。TUCUXI 采用?jin)MOMIS 公用字典来表征用h询的本体。在语义|中,ZOntology 的语义检索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese?
7Qȝ
语义搜烦(ch)引擎是未来搜索引擎发展的方向Q它的发展主要受限于语义web的发展以?qing)自然语a处理技术。语义搜索引擎设计的最l目标是让计机h人的Q以解决问题的Ş式返回给用户。语义搜索引擎设计的当前目标是让计算回的l果更有针对性、准性?

参考文献:(x)
[1] CNNICW?5ơ互联网发展状况报告
[[2]] Luiz André Barroso, Jeffrey Dean, Urs H?lzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE
[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System

]]>
什么是媒体技?/title><link>http://m.tkk7.com/hjh132/archive/2008/02/26/182329.html</link><dc:creator>101℃太?/dc:creator><author>101℃太?/author><pubDate>Tue, 26 Feb 2008 14:49:00 GMT</pubDate><guid>http://m.tkk7.com/hjh132/archive/2008/02/26/182329.html</guid><wfw:comment>http://m.tkk7.com/hjh132/comments/182329.html</wfw:comment><comments>http://m.tkk7.com/hjh132/archive/2008/02/26/182329.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://m.tkk7.com/hjh132/comments/commentRss/182329.html</wfw:commentRss><trackback:ping>http://m.tkk7.com/hjh132/services/trackbacks/182329.html</trackback:ping><description><![CDATA[随着互联|的普及(qing)Q利用网l传输声音与视频信号的需求也来大。广播电(sh)视等媒体上网后,也都希望通过互联|来发布自己的音视频节目。但是,韌频在存贮时文件的体积一般都十分庞大。在|络带宽q很有限的情况下Q花几十分钟甚至更长的时间等待一个音视频文g的传输,不能不说是一件让人头疼的事。流媒体技术的出现Q在一定程度上使互联网传输韌频难的局面得到改善? <p>    传统的网l传输音视频{多媒体信息的方式是完全下蝲后再播放Q下载常常要花数分钟甚至数小时。而采用流媒体技术,可实现式传输Q将声音、媄(jing)像或动画由服务器向用戯机q行q箋(hu)、不间断传送,用户不必{到整个文g全部下蝲完毕Q而只需l过几秒或十几秒的启动g时即可进行观看。当声音视频{在用户的机器上播放Ӟ文g的剩余部分还?sh)(x)从服务器上l箋(hu)下蝲? <p>    如果文件传输看作是一ơ接水的q程Q过ȝ传输方式像是对用户做了(jin)一个规定,必须{到一桶水接满才能使用它,q个{待的时间自然要受到水流量大和桶的大小的媄(jing)响。而流式传输则是,打开水头龙,{待一会(x)儿,水就?x)源源不断地出来,而且可以随接随用Q因此,不管水流量的大小Q也不管桶的大小Q用户都可以随时用上水。从q个意义上看Q流媒体q个词是非常形象的? <p>    式传输技术又分两U,一U是序式传输Q另一U是实时式传输? <p>    序式传输是顺序下载,在下载文件的同时用户可以观看Q但是,用户的观看与服务器上的传输ƈ不是同步q行的,用户是在一Dg时后才能看到服务器上传出来的信息Q或者说用户看到的L服务器在若干旉以前传出来的信息。在q过E中Q用户只能观看已下蝲的那部分Q而不能要求蟩到还未下载的部分。顺序流式传输比较适合高质量的短片D,因ؓ(f)它可以较好地保证节目播放的最l质量。它适合于在|站上发布的供用L(fng)播的韌频节目? <p>    在实时流式传输中Q音视频信息可被实时观看到。在观看q程中用户可快进或后退以观看前面或后面的内容,但是在这U传输方式中Q如果网l传输状况不理想Q则收到的信h果比较差? <p>    在运用流媒体技术时Q音视频文g要采用相应的格式Q不同格式的文g需要用不同的播攑֙软g来播放,所?#8220;一把钥匙开一把锁”。目前,采用媒体技术的韌频文件主要有三大“派”? <p>    一是微软的ASFQAdvanced Stream FormatQ。这cL件的后缀?asf?wmvQ与它对应的播放器是微Y公司?“Media Player”。用户可以将囑Ş、声韛_动画数据l合成一个ASF格式的文Ӟ也可以将其他格式的视频和音频转换为ASF格式Q而且用户q可以通过声卡和视频捕获卡诸如麦克风、录像机{外讄数据保存?sh)ASF格式? <p>    二是RealNetworks公司的RealMediaQ它包括RealAudio、RealVideo和RealFlash三类文gQ其中RealAudio用来传输接近CD韌的音频数据,RealVideo用来传输不间断的视频数据QRealFlash则是RealNetworks公司与Macromedia公司联合推出的一U高压羃比的动画格式Q这cL件的后缀?rmQ文件对应的播放器是“RealPlayer”? <p>    三是Ҏ(gu)公司的QuickTime。这cL件扩展名通常?.movQ它所对应的播攑֙?#8220;QuickTime?#8221; <p>    此外QMPEG、AVI、DVI、SWF{都是适用于流媒体技术的文g格式? <p>    ׃媒体技术在一定程度上H破?jin)网l带宽对多媒体信息传输的限制Q因此被q泛q用于网上直播、网l广告、视频点播、远E教肌Ӏ远E医疗、视频会(x)议、企业培训、电(sh)子商务等多种领域? <p>    对于新闻媒体来说Q流媒体带来?jin)机遇,也带来?jin)?xi)战? <p>    媒体技术ؓ(f)传统媒体在互联网上开辟更qK的空间提供了(jin)可能。广播电(sh)视媒体节目的上网更ؓ(f)方便Q听众、观众在|上Ҏ(gu)节目更ؓ(f)单,|上韌频直播也得到广泛运用? <p>    媒体技术将q去传统媒体?#8220;?#8221;式传播,变(sh)ؓ(f)受众?#8220;?#8221; 式传播,受众不再是被动地接受来自q播?sh)视的节目,而是在自己方便的旉来接收自己需要的信息。这在一定程度上提高受众的地位,使他们在新闻传播中占有主动权Q也使他们的需求对新闻媒体的活动生更为直接的影响? <p>    媒体技术的q泛q用也将模糊q播、电(sh)视与|络之间的界限,|络既是q播?sh)视的辅助者与延者,也将成ؓ(f)它们的有力的竞争者。利用流媒体技术,|络提供新的音视频节目样式Q也Ş成新的经营方式,例如收费的点播服务。发挥传l媒体的优势Q利用网l媒体的牚wQ保持媒体间良好的竞争与合作Q是未来|络的发展之路,也是未来传统媒体的发展之路。流媒体技术的q用只是一个开端,无数新的技术还在前面等着我们?Q作者:(x)彭兰/中国人民大学新闻与社?x)发展研I中?j)研I员Q?/p> <img src ="http://m.tkk7.com/hjh132/aggbug/182329.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://m.tkk7.com/hjh132/" target="_blank">101℃太?/a> 2008-02-26 22:49 <a href="http://m.tkk7.com/hjh132/archive/2008/02/26/182329.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss> <footer> <div class="friendship-link"> <p>лǵվܻԴȤ</p> <a href="http://m.tkk7.com/" title="亚洲av成人片在线观看">亚洲av成人片在线观看</a> <div class="friend-links"> </div> </div> </footer> վ֩ģ壺 <a href="http://ranjihua.com" target="_blank">һþþþþþþ</a>| <a href="http://sewo66.com" target="_blank">ѾƷԲ߲</a>| <a href="http://www-777768.com" target="_blank">69˳鶹Ƶ</a>| <a href="http://rr7733.com" target="_blank">ͼƬĻ</a>| <a href="http://72c5.com" target="_blank">ѨƬ߹ۿ</a>| <a href="http://ccccccx.com" target="_blank">99þ99þþƷѿ</a>| <a href="http://ahbbht.com" target="_blank">Ƶ߹ۿַ</a>| <a href="http://jdvgo.com" target="_blank">պѹۿ</a>| <a href="http://554ka.com" target="_blank">߹ۿ</a>| <a href="http://yw8885.com" target="_blank">ŷղҳ</a>| <a href="http://dzhyyy.com" target="_blank">ý߹ۿƵѹۿ</a>| <a href="http://shaolingtongluo.com" target="_blank">ƷŮٸaѾþ</a>| <a href="http://w6626.com" target="_blank">޿һ24鶹</a>| <a href="http://hssw1688.com" target="_blank">˳վ߲</a>| <a href="http://gayhh.com" target="_blank">ҹƵ߹ۿ</a>| <a href="http://78avai.com" target="_blank">Ʒþþþþþþ͵Ů</a>| <a href="http://micehunan.com" target="_blank">޾ƷƬ߹ۿƷĻ </a>| <a href="http://twtairun.com" target="_blank">AAƬٸAAƬֱ</a>| <a href="http://www-070755.com" target="_blank">Ʒһ߹ۿ </a>| <a href="http://jmzc888.com" target="_blank">йxxxxxѿƵ</a>| <a href="http://sy8989.com" target="_blank">þav޾Ʒɫҹ</a>| <a href="http://xmmn77.com" target="_blank">avպav</a>| <a href="http://zzyqr.com" target="_blank">Ʒһ߹ۿ</a>| <a href="http://fdsyjy.com" target="_blank">þҹҹ³³Ƭ </a>| <a href="http://chinacry.com" target="_blank">Թ24</a>| <a href="http://www-xg5777.com" target="_blank">޾ƷVAƬ߲</a>| <a href="http://xx2e.com" target="_blank">޾ƷƬ߹ۿƷĻ</a>| <a href="http://wwwkckc.com" target="_blank">ҹƵ</a>| <a href="http://cdessc.com" target="_blank">ѾƷAVƬ߹ۿ</a>| <a href="http://4228970.com" target="_blank">è˳վ</a>| <a href="http://868664.com" target="_blank">ۺϼ¶</a>| <a href="http://chch12.com" target="_blank">þ޾Ʒ</a>| <a href="http://dfcnpc.com" target="_blank">޾ƷպAV </a>| <a href="http://yyfass.com" target="_blank">޹˳߹ۿ69վ</a>| <a href="http://xiaojiejieav.com" target="_blank">պavѹۿ</a>| <a href="http://565636.com" target="_blank">91ѹԲ2021</a>| <a href="http://7272004.com" target="_blank">һѹۿƵ </a>| <a href="http://wenbye.com" target="_blank">ŷղ߹ۿ</a>| <a href="http://xiaochidaquan.com" target="_blank">˳Ƶ</a>| <a href="http://lemonbt.com" target="_blank">ŮAëƬ</a>| <a href="http://hjndgb.com" target="_blank">ñIJԭӾѹۿ</a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body>