久久亚洲中文字幕精品一区,2048亚洲精品国产,久久精品国产亚洲Aⅴ蜜臀色欲

李敖:如果我是日本人，我也要参拜靖

gaich — Tue, 03 Jan 2006 15:24:00 GMT

- 我想找个�l�英雄下跪的地方 -——李敖写在抗日战争胜�?0周年
             　如果我是日本人，我也会去参拜靖国��社�Q?
             　　而我是中国�h�Q?

            　　做�ؓ中国人，今天我想起在抗日战场和朝鲜战��Z��用血肉之�w�抵抗了��日本和��帝机枪大炮的几千万中国先辈……我�Ʋ哭无泪�Q�我惌��下叩一万个响头……却找不��C��们的牌位�Q�　　

             　　日本��Zؓ什么要参拜靖国��社�Q�因为对于大和民族来��_��里面所供奉的：都是他们民族的英雄呀�Q?
             　　��Z��国家民族的荣誉，日本军�h可以驾机冲向��国军舰�Q�同归于��！战��|时可以集体剖腹！剖腹�Q?
             　　你知道怎样剖腹吗？把刀插进腚w��往胔R��用力一剖，再横着用力一刀�Q?
             　　淋漓��致�Q?
             　　��Z��国的尊严，你们谁敢�Q�谁愿？�Q�不敢就没有资格说日本�h�Q?
             　　张自忠，是谁�Q?
             　　邱少云，�q�记得吗�Q?
             　　朝鲜战场上的两位特��战斗英雄是谁�Q?
             　　回答的出来吗�Q�你知道他们的事�q�吗�Q�你知道他们是怎样�ȝ��吗？今天我们已经把他们遗忘了差不多了吧？

            　　我们已经蜕变了，我们已经没有了精��，我们不配做中国�h�Q�我们的时代�|�有英雄�Q�罕有男子汉�Q�我们丢了祖宗的脸，中国历史上从来没有一个时代象今天一��L��囊！

            --------------------------------------------------------------------------------

             　　当然�q�指的不是我们的政府�Q�而是我们的这一代�h�?
             　　我们的政府懂得强国之道，懂得什么叫忍��i负重�Q�后发制人，我们的政府徏立了丰功伟�W�?
             　　而我们的青年�Q�除了象狗一样叫几声�Q�骂几声�Q�无所作�ؓ�?

            　　我们的祖先在历史上领先了几千�q�_��多少英雄豪杰�Q�多��王朝强盛之极天下之大，唯我独尊�Q�侠客英雄，君子大家层出不穷�Q�他们能够舍生取义，光明��落�Q�精忠报国，贫贱不能�U�，威武不能屈�?

             　　而今天�ؓ了钱可以没有人格�Q�更何况什么国家民族的��严�Q�！
             　　没有惛_��Q�到了今天，中国已经找不��C��么英雄！
             　　即��有，也被官吏当作��q��装饰一下政�l?被一些白痴当做傻瓜猴子嘲�W�！
             　　今天是我们自己有人看不�v中国传统的东西，它们是西�z�的走狗�Q?
             　　日本人有靖国��社可以参拜�Q�我们没有！也没有�h要去�Q?
             　　烈士��R��q�在�Q�名字已�l�消失…�?
             　　我想找个�l�英雄下跪的地方�Q?
             　　我想��h��本�h告诉我当�q�是谁在中国的哪个地方和日军血战过�Q?
             　　不过日本��定不告诉我，我们的英雄已�l�战��d��十年�Q�日本�h仍然��x��他们�?


            --------------------------------------------------------------------------------

             　　但今天我们比抗日时有钱，日本人却变本加厉地唾弃我们！
             　　�q�不能怪他们，我们是活该的�Q?

            　　一面我们的��ַ��得如此之高�Q�欢�q�日本的二流商品在中国称雄，陉��于日本媄片，崇拜日本明星�Q�我宁愿他崇拜东条英机，��来成�ؓ中国的东条去灭了日本�?

             　　一斚w��我们的下一代很多被娇生惯养�Q�严肃的东西不看�Q�中国历史一问三不知�Q�中国的未来是一大群软骨头的孬种�?
             　　当日本�h在小学课本里��d��扭曲侵华历史�Ӟ��我们的教育学家居然在讨论金庸武侠��说要不要入选中学教材！
             　　更何况，我们不知从什么时候�v�Q�居然连英雄都唾弃�?
             　　�q�已不是悲哀那么��单了�Q?
             　　在民族精��上�Q�中国�h不如日本人�?

            　　日本��Q�从��M��上看�Q�支�U��h是世界上最低劣的种族。在��M��素质上，南方支纳人又要远�q�优于北�Ҏ��U��h……我们日本�h�Q�除了只会叩头的��数政客外）愿意�U�C��们国家�ؓ支纳�Q�不愿称它�ؓ中国�Q�但我们�U�宋代以前�ؓ中国。我们轻视支�U��h的一个原因是……我��的时候，父亲带我��L��比谷公园�Q�指着�~�获北洋水师的战利品�Ҏ��_��日本��是在打败支�U�的北洋水师后，才成��Z��界上主要强国的。当我来到支�U�的时候，我发现支�U��h比我惌��的还要低劣，他们�Ҏ��q�个毫无背景的日本学生点头哈腎ͼ�说什么都是日本的好……当我问他们支纳一个在韩战中�ؓ了完成�Q务宁愿被火烧�ȝ��英雄�Ӟ��他们居然说那�U�傻瓜再也不会有了。我们日本有靖国��社……我们日本�h��会永记为国�D�死的英灵，他们在靖国神�C�N��享受他们应得的敬意。每当我们唱起�ؓ国而逝的英魂啊，你要常常回到慈母的梦中，我们��׃��感慨万千�Q�永志难忘�?

             　　支纳人，我们敬拜靖国��社�Ӟ��你们�Ҏ��没有资格说三道四�?


            --------------------------------------------------------------------------------

             　　对他的说法我深有知己之感�Q�他日我若在战场上遇��C��Q�必先干上三杯再打！
             　　张自忠将军在枣宜战役壮烈而死�Q�日本高�U�军官亲自抬��！
             　　虽�ؓ敌�h�Q�杀��L��本�h无数�Q�但日本��v码知道，英雄是用来崇拜的�Q�这��L��英雄�Q�即使是敌�h�Q�也应表�C�Z��分的敬意�?
             　　只有�q�样敬重英雄的民族，才能长盛不衰�Q�日本�h��是�q�样的民族，日本��Z��是看不�v中国�Q�而是看不��L��在的中国人�?
             　　我们的祖先他们不敢��i没�?
             　　只有我们�q�些不肖的子孙自己才�q�出辱没��宗的事�Q�忘了祖宗的许多�_��和思想�_�N��?
             　　日本人只��重��，你打��M��Q�也要尊重你�?
             　　日本人唾弃弱者，你越跪得�Ƣ他��把你当狗对待�?
             　　而我们是��p��?
             　　中国的历史上�Q�有多少英雄惜英雄的故事�Q�如今只是故事�Ş了。现在的��自己眼前的英雄都讥�ؓ�ȝ��Q�何况别人的英雄�Q?

            　　当然�Q�我说是有立场的�Q�日本�h的英雄是我的敌�h�Q�但即��要灭之而后快，也应先敬三分�Q�对于本国的��h汉奸�Q�即使是同一��宗�Q�也应诛杀而唾弃�?

　　我们有的人看不�v先辈�Q�看不�v父辈�Q�认��Z��们老土�Q�但正是在这些老土的父辈��n上，才有希望看到中华民族真正的精华，正是他们直接间接和日本美帝斗争，才保住了我们的最后一点尊严�?

             　　今天中国周边形式严峻�Q�也有许多英雄在大叫骂娘�Q�让我感��C��国真的没有希望了�Q�关键是没有人想一下我们能�q�什么？
             　　我们要报仇，但只不是用嘴�Q�那只会象阿Q�Q?
             　　血��血�q�，但我们要懂得��重自己��重敌�h�Q�大丈夫喜怒不�Ԍ��杀��Z��无�Ş�?
             　　如果�Q�打一��Z��可以打出我们的民族精��来�Q�可以让我们的科技和工业前�q�一大步�?
             　　那么�Q�我们打�Q?
             　　无赖的老年日本人根本就不承认��R略过中国�Q?
             　　无知的年��L��本�h�Ҏ��׃��知道�늕��q�中国！
             　　无�ȝ��军国��M��者说当慰安妇在是一�U�荣耀�Q?
             　　我们却在自我安慰的寄希望于日本�h的良知！
             　　而他们认为我们这些可怜的�W�三世界在编造故事以敲诈他们的钱财…�?


            --------------------------------------------------------------------------------

             　　如果你是一个不太喜�Ƣ狂热、激�q�的温和�z�，那么我个��Z��应该所做的是：
             　　把不买日货这个原则默默地记在心里�Q�我们没有必要非得用�C�wei或游xing来反�Ҏ��本可�ȝ��行�ؓ�?
             　　我们应在心里默默的抗议日本对我们犯下的错误和他们对这些错误无�ȝ��抵赖�Q?
             　　�q�是做�ؓ中国人最��L��的原则吧�Q?
             　　我们只需要在购买商品的时候更多的忽视一下日货，能不买日货就不要��M��?
             　　�怿�自己�Q�只要我们团�l��v来，��Z�h都能做到�q�一点，��׃��使日本在�l�济上受到打击，��׃��使他们不敢再轻视我们的力量�?
             　　如果你认为我是在痴�h说梦�Q�那么可以先看看下面的数据：
             　　在世界各圎ͼ�几乎90%的华人用的是日本车和日本电器�?
             　　我统计过如果世界各地的华人停止购买日货，日本每年��损�?000-1400亿美元的外汇收入�Q?
             　　而外汇收入是��M��一个国家的源泉和动力！
             　　它和国民�l�济的关�p�L��一带动八，或者说�Q�损�׃��份外贸收入，�q�个国家��p��损失八䆾的国内经��收入�?
             　　换算一下：1000-1400亿美元的外汇收入�{��h于一兆美元：日本�l�济的��M�值的五分之一�?
             　　所以，如果世界各地华�h同心协力�Q�不用动刀动枪�Q�就可制日本于死圎ͼ��Q?
             　　而且是永久的��d��Q?


            --------------------------------------------------------------------------------

             　　我们应该学习��太人：曄��集体拒买一家�d国工厂的产品�Q�最后导致这家公司的��d��破��Q?
             　　起因��是因�ؓ�q�个公司的总裁说了一些所谓理解希特勒的话�Q?
             　　现在德国人对犹太人特别好�Q�您知道��Z��么吗�Q?
             　　原因有二�Q?
             　　一个是怕：因�ؓ��太人特别团�l�；
             　　�W�二个是��太人的狠：��太��Z��来没有放弃过对纳�_�分子的�q�杀�Q?
             　　只要在这个地球上发现有�Q何藏匿的�U��a分子�Q�他们就一定就会抓捕绑架如果实在无法得手，那就杀�Q?
             　　看看我们中国呢？�Q?
             　　对刽子手的仁慈，无疑��是自杀�Q?
             　　开始行动吧�Q?
             　　同胞们：多少�q�过��M��Q�还要等吗？
             　　开始行动吧�Q?
             　　从我开始做��P��
             　　从我家开始做��P��Q?
             　　从我的朋友开始做��P��Q�！
             　　从我�w�边的各个组�l�开始做��P��Q�！�Q?
             　　只要大家共同努力�Q?
             　　最后，我想最�?0�q�_��全世界所有的华�h都会做到�Q?
             　　既��能做��C��半。对日本的打��M��是致命的�Q�！
             　　�l�织一个全球性的拒买日货复仇�l�织�Q�请在各��C��q�串�q�，好吗�Q�！
             　　同胞们，开始行动吧�Q?


            --------------------------------------------------------------------------------

             　　请大家意识到拒买日货的重要性�?
             　　拒买日货首先要防止被日本狗误对{�?

            　　有些所谓的爱国人士�Q�其时是被日本秘密收买的哈巴狗，目地是挑拨分��L��们本来就不团�l�的中华大众�Q�，它们�l�常提出�Q�拒买日货是不可能做到的�Q�原因是几乎所有的轿�R、电器里�Q�多��都有日本的零�g。所以还是打住吧�Q?

             　　拒买日货��到此�ؓ止是什么用意？
             　　��N��中国人感觉不��C��Q�感觉不到日本在��x��！
             　　他们��x��看��C��国大众组�l��v来，�q�而进行有效的抵制日货�q�动�Q?
             　　故而在�q�个五十多年来首�ơ完全有可能�l�织其一个有效的全球性拒买日货运动时�Q�他们便会迫不及待地跛_��来叫停！
             　　拒买日货�Q��ƈ非像他们所说的哪样因�ؓ�q�个计算机里有一个或一些日本零�Ӟ��我就不买�Q�这个电视里有几个日本造的电子器�g�Q�我��׃��要�?
             　　拒买日货的口号实际上是要求全球中国�h�Q�在有选择可能的情况下�Q�尽量不买日本造的货物�Q�如汽�R、电冰箱、洗衣机、电视、音响等�{�！
             　　五十多年来，华�h一直记恨于日本�Q�但可笑的是却没有一个有力的拒买日货�l�织�Q?
             　　�I�其原因,��是因�ؓ中国有太多的日本狗从中挑拨分��L��们本来就不团�l�的中华大众�Q?
             　　中国同胞们：清醒�q�来吧！千万不要再被�q�种人玩耍了�Q?
             　　拒买日货的意义是巨大的！
             　　她能让我们不动一刀一枪就打击了日本，同时又加快了中国�l�济的发展！
             　　她能让我们扼制日本，�q�而让中国立于不��|之地�Q?
             　　她能让我们的子孙免遭我们的前几代��先和我们现代中国�h所遭受的痛苦！
             　　�Ҏ��l�也能让�q�个几百�q�来一直顽��Z��化，一再屠杀掠夺中国人民的丑陋民族遭受到它应有的惩罚�Q?
             　　你以��Ҏ��做到吗？�l�对不是�Q?
             　　�q�需要我们大家的共同努力�Q�才能让全体中国人慢慢地�Q�逐渐的，先是意识刎ͼ�然后才能真实地做刎ͼ�
             　　至于某些不必要的担心�Q?
             　　1.中日关系日渐友好�?
             　　中日友好�Ҏ��׃��存在�Q�过��L��有，现在没有�Q�将来也不会有！
             　　清醒�q�来吧，不要再自己骗自己�Q?
             　　2.现在中日两国贸易总额每年�?00亿美元。会不会因�ؓ我们全球华�h�Ҏ��制日货，中国��׃��受到损失�Q?
             　　�q�是不会的！原因是：
             　　a.日本出口��C��国的是高�U�奢侈品�Q�我们中华大众可以拒�l�；
             　　b.中国出口到日本的是普通生�z�d��d��Q�日本�h很难抵制�Q�他们其实是在��n受着我们廉�h的��品！

            　　3.另外�Q�从中国的长�q�利益来看，减少�Ҏ��本��品的�q�䆾依赖�Q�对中国的国家安全是非常重要的，比如日本参加��国的NMD�Q�其目的��是与中国�ؓ敌！

gaich 2006-01-03 23:24 发表评论

高亮昄��Table中选择的TR或TD

gaich — Tue, 05 Jul 2005 07:23:00 GMT

如果table中没有指定css�Q�可以通过直接改变tr的bgColor来实玎ͼ�

111111	111111
222222	222222
333333	333333

如果table中指定了css�Q�直接改变tr的bgColor不能生效�Q�要改变className�Q?BR>

111111

222222

333333

gaich 2005-07-05 15:23 发表评论

lucene�l�构中文说明

gaich — Thu, 30 Jun 2005 03:52:00 GMT

原文:http://www.matrix.org.cn/resource/article/34.html

论坛:http://www.matrix.org.cn/topic.shtml?forumId=32
索引文�g格式

本文定义�?/SPAN>Lucene�Q�版�?/SPAN>1.3�Q�用到的索引文�g的格式�?/SPAN>

Jakarta Lucene是用Java写成的，同时有很多团体正在默默的用其他的�E�序语言来改写它。如果这些新的版本想�?/SPAN>Jakarta Lucene兼容�Q�就需要一个与具体语言无关�?/SPAN>Lucene索引文�g格式。本文正是试图提供一个完整的与语�a�无关�?/SPAN>Jakarta Lucene 1.3索引文�g格式的规格定义�?/SPAN>

随着Lucene不断发展�Q�本文也应该更新。不同语�a�写成�?/SPAN>Lucene实现版本应当��力遵守文�g格式�Q�也必须产生本文的新版本�?/SPAN>

本文同时提供兼容性批注，描述文�g格式上与前一版本不同的地斏V�?/SPAN>

定义

Lucene中最基础的概忉|��索引�Q?/SPAN>index�Q�，文档�Q?/SPAN>document�Q�，域（field�Q�和��（term�Q��?/SPAN>

索引包含了一个文档的序列�?/SPAN>

· 文档是一些域的序列�?/SPAN>

· 域是一些项的序列�?/SPAN>

· ��就是一个字丌Ӏ?/SPAN>

存在于不同域中的同一个字串被认�ؓ是不同的��V��因此项实际是用一对字串表�C�的�Q�第一个字串是域名�Q�第二个是域中的字串�?/SPAN>

倒排索引

��Z��使得��Z��的搜烦更有效率�Q�烦引中��Ҏ��静态存储的�?/SPAN>Lucene的烦引属于烦引方式中的倒排索引�Q�因为对于一个项�q�种索引可以列出包含它的文档。这刚好是文档与��自然联�pȝ��倒置�?/SPAN>

域的�c�d��

Lucene中，域的文本可能以逐字的非倒排的方式存储在索引中。而倒排�q�的域称��索引�q�了。域也可能同时被存储和被索引�?/SPAN>

域的文本可能被分解许多项目而被索引�Q�或者就被用作一个项目而被索引。大多数的域是被分解�q�的�Q�但是有些时候某些标识符域被当做一个项目烦引是很有用的�?/SPAN>

�D�（Segment�Q?/SPAN>

Lucene索引可能由多个子索引�l�成�Q�这些子索引成�ؓ�D�c��每一�D�都是完整独立的索引�Q�能被搜索。烦引是�q�样作成的：

1. 为新加入的文档创建新�D�c�?/SPAN>

2. 合�ƈ已经存在的段�?/SPAN>

搜烦旉��要涉及到多个�D�和/或者多个烦引，每一个烦引又可能�׃��些段�l�成�?/SPAN>

文档��P��Document Number�Q?/SPAN>

内部的来��_��Lucene用一个整形（interger�Q�的文档��h��指示文档。第一个被加入到烦引中的文档就�?/SPAN>0��P��序加入的文档将得到一个由前一个号码递增而来的号码�?/SPAN>

注意文档��h��可能改变的，所以在Lucene外部存储�q�些��L��时必��d��心。特别的�Q�号码的改变的情况如下：

· 只有�D�内的号码是相同的，不同�D�之间不同，因而在一个比�D�广泛的上下文环境中使用�q�些��L��Ӟ��必��L��变它们。标准的技术是�Ҏ��每一�D�号码多��ؓ每一�D�分配一个段受��将�D�内文档可��{换到�D�外�Ӟ��加上�D�号。将某段外的文档可��{换到�D�内�Ӟ��Ҏ��每段中可能的转换后号码范围来判断文档属于那一�D�，�q�减调这一�D늚��D�号。例如有两个�?/SPAN>5个文档的�D�合�qӞ��那么�W�一�D늚��D�号��是0�Q�第二段�D�号5。第二段中的�W�三个文档，在段外的��L��是8�?/SPAN>

· 文档删除后，�q�箋的号码就出现了间断。这可以通过合�ƈ索引来解冻I��D�合�q�时删除的文档相应也删掉了，新合�q�而成的段�q�没有号码间断�?/SPAN>

�l�论

索引�D늻�护着以下的信息：

· 域集合。包含了索引中用到的所有的域�?/SPAN>

· 域值存储表。每一个文档都含有一�?/SPAN>�?/SPAN>属性－�?/SPAN>�?/SPAN>对的列表�Q�属性即为域名。这个列表用来存储文档的一些附加信息，如标题，url或者访问数据库的一�?/SPAN>ID。在搜烦时存储域的集合可以被�q�回。这个表以文档号标识�?/SPAN>

· ��字典。这个字典含有所有文档的所有域中��用过的的��，同时含有使用�q�它的文档的文档��P��以及指向使用频数信息和位�|�信息的指针�?/SPAN>

· ��w��C��息。对于项字典中的每个��，�q�些信息包含含有�q�个��的文档的��L��Q�以及每个文档中使用的次数�?/SPAN>

· ��位�|�信息。对于项字典中的每个��，都存有在每个文档中出现的各个位置�?/SPAN>

· Normalization factors. For each field in each document, a value is stored that is multiplied into the score for hits on that field. 标准化因子。对于文档中的每一个域�Q�存有一个��|��用来以后乘以�q�个�q�个域的命中敎ͼ�hits�Q��?/SPAN>

· 被删除的文档信息。这是一个可选文�Ӟ��用来表明那些文档已经删除了�?/SPAN>

接下来的各部分部分详�l�描�q�这些信息�?/SPAN>

文�g的命名（File Naming�Q?/SPAN>

同属于一个段的文件拥有相同的文�g名，不同的扩展名。扩展名�׃��下讨论的各种文�g格式��定�?/SPAN>

一般来��_��一个烦引存放一个目录，其所有段都存攑֜��q�个目录里，��管我们不要求您�q�样做�?/SPAN>

基本数据�c�d��Q?/SPAN>Primitive Types�Q?/SPAN>

Byte

最基本的数据类型就是字节（byte�Q?/SPAN>8位）。文件就是按字节��序讉K��的。其它的一些数据类型也定义为字节的序列�Q�文件的格式��h��字节意义上的独立性�?/SPAN>

UInt32

32位无�W�号整数�Q�由四个字节�l�成�Q�高位优先�?/SPAN>

UInt32 --> 4

Uint64

64位无�W�号整数�Q�由八字节组成，高位优先�?/SPAN>

UInt64 --> 8

VInt

可变长的正整数类型，每字节的最高位表明�q�剩多少字节。每字节的低七位表明整数的倹{��因此单字节的��g��0�?/SPAN>127�Q�两字节��g��128�?/SPAN>16,383�Q�等�{��?/SPAN>

VInt �~�码�C�Z��

Value
First byte
Second byte
Third byte

0
00000000

1
00000001

2
00000010

...

127
01111111

128
10000000
00000001

129
10000001
00000001

130
10000010
00000001

...

16,383
11111111
01111111

16,384
10000000
10000000
00000001

16,385
10000001
10000000
00000001

...

�q�种�~�码提供了一�U�在高效率解码时压羃数据的方法�?/SPAN>

Chars

Lucene输出UNICODE字符序列�Q��用标�?/SPAN>UTF-8�~�码�?/SPAN>

String

Lucene输出�?/SPAN>VINT和字�W�串�l�成的字�Ԍ��VINT表示字串长，字符串紧接其后�?/SPAN>

String --> VInt, Chars

索引包含的文�Ӟ��Per-Index Files�Q?/SPAN>

�q�部分介�l�每个烦引包含的文�g�?/SPAN>

Segments文�g

索引中活动的�D�存储在Segments文�g中。每个烦引只能含有一个这��L��文�g�Q�名�?/SPAN>"segments".�q�个文�g依次列出每个�D늚�名字和每个段的大��?/SPAN>

Segments --> SegCount, SegCount

SegCount, SegSize --> UInt32

SegName --> String

SegName表示�?/SPAN>segment的名字，同时作�ؓ索引其他文�g的前�~��?/SPAN>

SegSize是段索引中含有的文档数�?/SPAN>

Lock文�g

有一些文件用来表�C�另一个进�E�在使用索引�?/SPAN>

· 如果存在"commit.lock"文�g�Q�表�C�有�q�程在写"segments"文�g和删除无用的�D늃�引文�Ӟ��或者表�C�有�q�程在读"segments"文�g和打开某些�D늚�文�g。在一个进�E�在��d��"segments"文�g�D�信息后�Q�还没来得及打开所有该�D늚�文�g前，�q�个Lock文�g可以防止另一个进�E�删除这些文件�?/SPAN>

· 如果存在"index.lock"文�g�Q�表�C�有�q�程在向索引中加入文档，或者是从烦引中删除文档。这个文仉��止很多文件同时修改一个烦引�?/SPAN>

Deleteable文�g

名�ؓ"deletetable"的文件包含了索引不再使用的文件的名字�Q�这些文件可能�ƈ没有被实际的删除。这�U�情况只存在�?/SPAN>Win32�q�_��下，因�ؓWin32下文件仍打开时�ƈ不能删除�?/SPAN>

Deleteable --> DelableCount, DelableCount

DelableCount --> UInt32

DelableName --> String

�D�包含的文�g�Q?/SPAN>Per-Segment Files�Q?/SPAN>

剩下的文件是每段中包含的文�g�Q�因此由后缀来区分�?/SPAN>

域（Field�Q?/SPAN>

域集合信息（Field Info�Q?/SPAN>

所有域名都存储在这个文件的域集合信息中�Q�这个文件以后缀.fnm�l�尾�?/SPAN>

FieldInfos (.fnm) --> FieldsCount, FieldsCount

FieldsCount --> VInt

FieldName --> String

FieldBits --> Byte

目前情况下，FieldBits只有使用低位�Q�对于已索引的域��gؓ1�Q�对未烦引的域��gؓ0�?/SPAN>

文�g中的域根据它们的�ơ序�~�号。因此域0是文件中的第一个域�Q�域1是接下来的，�{�等。这个和文档��L��~�号方式相同�?/SPAN>

域值存储表�Q?/SPAN>Stored Fields�Q?/SPAN>

域值存储表使用两个文�g表示�Q?/SPAN>

1. 域烦引（.fdx文�g�Q��?/SPAN>

如下�Q�对于每个文档这个文件包含指向域值的指针�Q?/SPAN>

FieldIndex (.fdx) --> SegSize

FieldValuesPosition --> Uint64

FieldValuesPosition指示的是某一文档的某域的域值在域值文件中的位�|�。因为域值文件含有定长的数据信息�Q�因而很�Ҏ��随机讉K��。在域值文件中�Q�文�?/SPAN>n的域��g��息就存在n*8位置处（The position of document n's field data is the Uint64 at n*8 in this file.�Q��?/SPAN>

2. 域��|��.fdt文�g�Q��?/SPAN>

如下�Q�每个文档的域��g��息包含：

FieldData (.fdt) --> SegSize

DocFieldData --> FieldCount, FieldCount

FieldCount --> VInt

FieldNum --> VInt

Bits --> Byte

Value --> String

目前情况下，Bits只有低位被��用，��gؓ1表示域名被分解过�Q��gؓ0表示未分解过�?/SPAN>

��字典（Term Dictionary�Q?/SPAN>

��字典用以下两个文�g表示�Q?/SPAN>

1. ��信息（.tis文�g�Q��?/SPAN>

TermInfoFile (.tis)--> TermCount, TermInfos

TermCount --> UInt32

TermInfos --> TermCount

TermInfo -->

Term -->

Suffix --> String

PrefixLength, DocFreq, FreqDelta, ProxDelta
--> VInt

��信息按��Ҏ��序。项信息排序时先按项所属的域的文字��序排序�Q�然后按照项的字串的文字��序排序�?/SPAN>

��的字前�~�往往是共同的�Q�与字的后缀�l�成字�?/SPAN>PrefixLength变量��是表示与前一��相同的前缀的字数。因此，如果前一个项的字�?/SPAN>"bone"�Q�后一个是"boy"的话�Q?/SPAN>PrefixLength��gؓ2�Q?/SPAN>Suffix��gؓ"y"�?/SPAN>

FieldNum指明了项属于的域��P��而域名存储在.fdt文�g中�?/SPAN>

DocFreg表示的是含有该项的文档的数量�?/SPAN>

FreqDelta指明了项所�?/SPAN>TermFreq变量�?/SPAN>.frq文�g中的位置。详�l�的��_��是指相对于前一个项的数据的位置偏移量（或者是0�Q�表�C�文件中�W�一个项�Q��?/SPAN>

ProxDelta指明了项所属的TermPosition变量�?/SPAN>.prx文�g中的位置。详�l�的��_��是指相对于前一个项的数据的位置偏移量（或者是0�Q�表�C�文件中�W�一个项�Q��?/SPAN>

2. ��信息烦引（.tii文�g�Q��?/SPAN>

每个��信息烦引文件包�?/SPAN>.tis文�g中的128个条目，依照条目�?/SPAN>.tis文�g中的��序。这栯��计是��Z��一�ơ将索引信息��d��内存能，然后使用它来随机的访�?/SPAN>.tis文�g�?/SPAN>

�q�个文�g的结构和.tis文�g非常�c�M��Q�只在每个条目记录上增加了一个变�?/SPAN>IndexDelta�?/SPAN>

TermInfoIndex (.tii)--> IndexTermCount, TermIndices

IndexTermCount --> UInt32

TermIndices --> IndexTermCount

IndexDelta --> VInt

IndexDelta表示该项�?/SPAN>TermInfo变量值在.tis文�g中的位置。详�l�的�Ԍ��是指相对于前一个条目的偏移量（或者是0�Q�对于文件中�W�一个项�Q��?/SPAN>

��w��敎ͼ�Frequencies�Q?/SPAN>

.frq文�g包含每一��的文档的列表，�q�有该项在对应文档中出现的频数�?/SPAN>

FreqFile (.frq) --> TermCount

TermFreqs --> DocFreq

TermFreq --> DocDelta, Freq?

DocDelta,Freq --> VInt

TermFreqs序列按照��Ҏ��排序�Q�依据于.tis文�g中的��，即项是隐含存在的�Q��?/SPAN>

TermFreq元组按照文档号升序排列�?/SPAN>

DocDelta军_��了文档号和频数。详�l�的��_��DocDelta/2表示相对于前一文档��L��偏移量（或者是0�Q�表�C��?/SPAN>TermFreqs里面的第一��）。当DocDelta是奇数时表示在该文档中频��Cؓ1�Q�当DocDelta是偶数时�Q�另一�?/SPAN>VInt�Q?/SPAN>Freq�Q�就表示在该文档中出现的频数�?/SPAN>

例如�Q�假设某一��在文档7中出��C��ơ，在文�?/SPAN>11中出��C��3�ơ，�?/SPAN>TermFreqs中就存在如下�?/SPAN>VInts序列�Q?/SPAN>

15, 22, 3

��位�|�（Position�Q?/SPAN>

.prx文�g包含了某文档中某��出现的位置信息的列表�?/SPAN>

ProxFile (.prx) --> TermCount

TermPositions --> DocFreq

Positions --> Freq

PositionDelta --> VInt

TermPositions按照��Ҏ��排序�Q�依据于.tis文�g中的��，即项是隐含存在的�Q��?/SPAN>

Positions元组按照文档号升序排列�?/SPAN>

PositionDelta是相对于前一个出��C��|�的偏移位置�Q�或者�ؓ0�Q�表�C��是第一�ơ在�q�个文档中出玎ͼ��?/SPAN>

例如�Q�假设某一��在某文档第4��出玎ͼ�在另一个文档中�W?/SPAN>5��和�W?/SPAN>9��出玎ͼ��存在如下的VInt序列�Q?/SPAN>

4, 5, 4

标准化因子（Normalization Factor�Q?/SPAN>

.nrm文�g包含了每个文档的标准化因子，标准化因子用来以后乘以这个这个域的命中数�?/SPAN>

Norms (.nrm) --> SegSize

每个字节记录一个��Q�Ҏ��。位0-2包含�?/SPAN>3位的��数部分�Q�位3-8包含�?/SPAN>5位的指数部分�?/SPAN>

按如下规则可��这些字节�{换�ؓIEEE标准单精度��Q�Ҏ��Q?/SPAN>

1. 如果该字节是0�Q�就是��Q�?/SPAN>0�Q?/SPAN>

2. 否则�Q�设�|�新��点数的标志位�ؓ0�Q?/SPAN>

3. ��字节中的指数加�?/SPAN>48后作为新的��Q�Ҏ��的指敎ͼ�

4. ��字节中的尾数映��到新��Q�Ҏ��数的高3位；�q�且

5. 讄��新��Q�Ҏ��数的低21位�ؓ0�?/SPAN>

被删除的文档�Q?/SPAN>Deleted Document�Q?/SPAN>

.del文�g是可选的�Q�只有在某段中存在删除操作后才存在：

Deletions (.del) --> ByteCount,BitCount,Bits

ByteSize,BitCount --> Uint32

Bits --> ByteCount

ByteCount表示的是Bits列表�?/SPAN>Byte的数量。典型的�Q�它�{�于�Q?/SPAN>SegSize/8�Q?/SPAN>+1�?/SPAN>

BitCount表示Bits列表中多��个已经被设�|�过了�?/SPAN>

Bits列表包含了一些位�Q?/SPAN>bit�Q�，��序表示一个文档。当对应于文档号的位被设�|�了�Q�就标志着�q�个文档已经被删除了。位的顺序是从低到高。因此，如果Bits包含两个字节�Q?/SPAN>0x00�?/SPAN>0x02�Q�那么表�C�文�?/SPAN>9已经删除了�?/SPAN>

局限性（Limitations�Q?/SPAN>

在以上的文�g格式中，好几处都有限刉��和文档的最大个��Cؓ32位数的极限，��x��q�于40�ѝ��今天看来，�q�不会造成问题�Q�但是，长远的看�Q�可能造成问题。因此，�q�些极限应该或者换�?/SPAN>UInt64�c�d��的��|��或者更好的�Q�换�?/SPAN>VInt�c�d��的��|��VInt值没有上限）�?/SPAN>

有两处地方的代码要求必须是定长的��|��他们是：

1. FieldValuesPosition变量�Q�存储于域烦引文件中�Q?/SPAN>.fdx文�g�Q�。它已经是一�?/SPAN>UInt64型，所以不会有问题�?/SPAN>

2. TermCount变量�Q�存储于��信息文件中�Q?/SPAN>.tis文�g�Q�。这是最后输出到文�g中的�Q�但是最先被��d��Q�因此是存储于文件的最前端。烦引代码先在这里写入一�?/SPAN>0��|��然后在其他文件输出完毕后覆盖�q�个倹{��所以无论它存储在什么地方，它都必须是一个定长的��|��它应该被变成UInt64型�?/SPAN>

除此之外�Q�所有的UInt值都可以换成VInt型以��L��限制�?/SPAN>

gaich 2005-06-30 11:52 发表评论

竹笋炒肉 --- Lucene学习�W�记

gaich — Thu, 30 Jun 2005 03:33:00 GMT

原文:http://hedong.3322.org/archives/000206.html

Lucene是一套全文检索的API�Q�对其介�l�的文章和应用的案例都多�Q�可参�?A title=我的一��lucene备忘 >lucene及本文的参考文献�?BR>　　此次学习�Q�以实用��Z��Q�一是简单应用，二是Web应用�Q�三是汉化，四相兛_��用（Lucene主页上在SandBox中）�?A name=more>

0、准备工�?BR>　　�?A title="lucene is a apache project" >Lucene的主��?/A>下蝲目前的稳定版本lucene-1.2.tar.gz�Q�解压羃�Q�将lucene-1.2目录下的两个jar文�glucene-1.2.jar和lucene-demo2-1.2.jar攑ֈ�适当的目录下后，�q�将其加入到CLASSPATH环境变量中�?

tar zxvf lucene-1.2.tar.gz <----解压�~?BR>cd lucene-1.2
cp *.jar $DP<---存放jar文�g的目录，�Ҏ��具体工作要求用实际目录替�?/INS>
CLASSPATH=$CLASSPATH:$DP/lucene-1.2.jar:$DP/lucene-demos-1.2.jar; export CLASSPATH

如果不想在每�ơ都��d��后，可以�~�辑/etc/profile或自��q��录下�?profile�Q�将上面的最后一行加到文件的最后一行。Windows的设�|�，叛_��桌面的“我的电脑”，选“高�U�”－�Q�“环境变量”－�Q�选中CLASSPATH�Q�＞“编辑”，在输入框中加入两个jar文�g的全路径名，注意分隔�W�是分号(;)。参见右图�?

1、运行demo

$ java org.apache.lucene.demo.IndexFiles /usr/local/man/man1/ <--对man文�g建立索引
adding /usr/local/man/man1/mysql.1
...........
adding /usr/local/man/man1/cvs.1
1614 total milliseconds
$ java org.apache.lucene.demo.SearchFiles <--�q�行��?/INS>
Query: password
Searching for: password
7 total matching documents
0. /usr/local/man/man1/mysql.1
......
6. /usr/local/man/man1/mysqlshow.1
Query:

OK!Lucene自待的demo�q�行成功
�q�个demo�E�序调用的主要API函数:

/*关于索引的主要函�?/
File file=new File(argv[]);
IndexWriter writer = new IndexWriter("index", new StandardAnalyzer(), true);

Document doc = new Document();
doc.add(Field.Text("path", file.getPath()));
doc.add(Field.Keyword("modified",DateField.timeToString(file.lastModified())));
FileInputStream is = new FileInputStream(f);
Reader reader = new BufferedReader(new InputStreamReader(is));
doc.add(Field.Text("contents", reader));

writer.addDocument(doc);

writer.optimize();
writer.close();

/*关于��索的主要函数*/
Searcher searcher = new IndexSearcher("index");
Analyzer analyzer = new StandardAnalyzer();
Query query = QueryParser.parse(lineforsearch, "contents", analyzer);
Hits hits = searcher.search(query);
for (int i = start; i < hits.length(); i++) {
Document doc = hits.doc(i);
String path = doc.get("path");
System.out.println(i + ". " + path);
}

3、运行LuceneWeb
　　假定tomcat装在$TOMCATHOME目录下，具体应用时用真实的目录替�?TOMCATHOME�?

cd $TOMCATHOME/webapps
mkdir lucenedb
cd lucenedb
java org.apache.lucene.demo.IndexHTML -create -index $TOMCAT/webapps/lucenedb ../examples<--用相对�\径�?.”，一来指明被索引的文件的位置�Q�二来用来显�C��索引文�g的URL�Q�因为检索的jsp�E�序在luceneweb子目录下.examples可用其它的真实应用的目录名来替换
cd ..
cp ~/lucene-1.2/luceneweb.war . <--luceneweb.war在你解压�~�生成的lucene-1.2目录�?/INS>
../bin/shudown.sh
../bin/startup.sh

然后通过客户端访问http://yourdomain.com:8080/luceneweb,如果��利��览器应出现双��所�C�的内容�?IMG height=151 alt=luceneweb-1.gif src="http://hedong.3322.org/archives/pics/luceneweb-1.gif" width=499 align=right border=0>.再到服务器端

cd luceneweb
vi configuration.jsp <--��indexLocation 的值改�?"$TOMCATHOME/webapps/lucenedb";
cd ..
jar -ur luceneweb.war luceneweb

再到客户端，��h��刚才的页面，然后��可以输入单词进行检索了。遗憄��是，此是只能��索英文单词。且如果命中的html��面的title是汉字的话，昄��也有问题。如图�?BR>
　　此处的IndexHTML,可以对htm、html和txt�c�d��的文件进行烦引，用的是一个HTMLParser�Q�除此以外与上一例基本相同�?img src ="http://m.tkk7.com/gaich/aggbug/6931.html" width = "1" height = "1" />

gaich 2005-06-30 11:33 发表评论

��Z��Java的全文烦引引擎Lucene��?

gaich — Thu, 30 Jun 2005 03:19:00 GMT

关键词：Lucene java full-text search engine Chinese word segment

内容摘要�Q?/FONT>

Lucene是一个基于Java的全文烦引工具包�?/FONT>

作者：车东 Email: chedongATbigfoot.com/chedongATchedong.com

写于�Q?002/08 最后更斎ͼ� 03/16/2005 16:27:52

��Z��Java的全文烦引引擎Lucene��介：关于作者和Lucene的历�?/A>
全文��索的实现�Q�Luene全文索引和数据库索引的比�?/A>
中文切分词机制简介：��Z��词库和自动切分词��法的比�?/A>
具体的安装和使用��介：�pȝ��l�构介绍和演�C?/A>
Hacking Lucene�Q�简化的查询分析器，删除的实玎ͼ�定制的排序，应用接口的扩�?/A>
从Lucene我们�q�可以学��C��?/A>

��Z��Java的全文烦�?��索引擎——Lucene

Lucene不是一个完整的全文索引应用�Q�而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各�U�应用中实现针对应用的全文烦�?��索功能�?/P>

Lucene的作者：Lucene的�A献�?A >Doug Cutting是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎(Apple的Copland操作�pȝ��的成��׃��一)的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些INTERNET底层架构的研�I�。他贡献出的Lucene的目标是为各�U�中��型应用�E�序加入全文��索功能�?/P>

Lucene的发展历�E�：早先发布在作者自��q��www.lucene.com�Q�后来发布在SourceForge�Q?001�q�年底成为APACHE基金会jakarta的一个子��目�Q?A >http://jakarta.apache.org/lucene/

已经有很多Java��目都��用了Lucene作�ؓ其后台的全文索引引擎�Q�比较著名的有：

J ive�Q�WEB论坛�pȝ��Q?
Eyebrows�Q�邮件列表HTML归档/��览/查询�pȝ��Q�本文的主要参考文档�?A >TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows�pȝ��的主要开发者之一�Q�而EyeBrows已经成�ؓ目前APACHE��目的主要邮件列表归档系�l��?
Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了Lucene
Eclipse:��Z��Java的开攑ּ�发��^収ͼ�帮助部分的全文烦引��用了Lucene

对于中文用户来说�Q�最兛_��的问题是其是否支持中文的全文��索。但通过后面对于Lucene的结构的介绍�Q�你会了解到�׃��Lucene良好架构设计�Q�对中文的支持只需对其语言词法分析接口�q�行扩展��p��实现对中文检索的支持�?/P>

全文��索的实现机制

Lucene的API接口设计的比较通用�Q�输入输出结构都很像数据库的�?=>记录==>字段�Q�所以很多传�l�的应用的文件、数据库�{�都可以比较方便的映��到Lucene的存储结�?接口中。��M��上看�Q�可以先�?B>Lucene当成一个支持全文烦引的数据库系�l?/B>�?/P>

比较一下Lucene和数据库�Q?/P>

Lucene	数据�?/TD>
索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ �l�果输出�Q�Hits(doc(field1,field2) doc(field1...))	索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ �l�果输出�Q�results(record(field1,field2..) record(field1...))
Document�Q�一个需要进行烦引的“单元�?BR>一个Document由多个字�D늻��?/TD>	Record�Q�记录，包含多个字段
Field�Q�字�D?/TD>	Field�Q�字�D?/TD>
Hits�Q�查询结果集�Q�由匚w��的Document�l�成	RecordSet�Q�查询结果集�Q�由多个Record�l�成

全文��?�?like "%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如�Q�北京：12, 34��，上�v�Q?,77��……）�Q�它能够帮助读者比较快地找到相兛_��容的��늠�。而数据库索引能够大大提高查询的速度原理也是一��P��惛_��一下通过书后面的索引查找的速度要比一��一��地��d��定w��多少倍……而烦引之所以效率高�Q�另外一个原因是它是排好序的�?B>对于��索系�l�来说核心是一个排序问�?/B>�?/P>

�׃��数据库烦引不是�ؓ全文索引设计的，因此�Q?B>使用like "%keyword%"�Ӟ��数据库烦引是不�v作用�?/B>�Q�在使用like查询�Ӟ��搜烦�q�程又变成类��g��一��页��M��的遍历过�E�了�Q�所以对于含有模�p�查询的数据库服务来��_��LIKE�Ҏ��能的危��x��极大的。如果是需要对多个关键词进行模�p�匹配：like"%keyword1%" and like "%keyword2%" ...其效率也��可惌��知了�?/P>

所以徏立一个高效检索系�l�的关键是徏立一个类��g��U�技索引一��L��反向索引机制�Q�将数据源（比如多篇文章�Q�排序顺序存储的同时�Q�有另外一个排好序的关键词列表�Q�用于存储关键词==>文章映射关系�Q�利用这��L��映射关系索引�Q�[关键�?=>出现关键词的文章�~�号�Q�出现次敎ͼ�甚至包括位置�Q��v始偏�U�量�Q�结束偏�U�量�Q�，出现频率]�Q�检索过�E�就是把模糊查询变成多个可以利用索引的精��查询的逻辑�l�合的过�E?/B>。从而大大提高了多关键词查询的效率，所以，全文��索问题归�l�到最后是一个排序问题�?/P>

由此可以看出模糊查询相对数据库的�_��查询是一个非�怸��定的问题，�q�也是大部分数据库对全文��索支持有限的原因。Lucene最核心的特征是通过�Ҏ��的烦引结构实��C��传统数据库不擅长的全文烦引机�Ӟ��q�提供了扩展接口�Q�以方便针对不同应用的定制�?/P>

可以通过一下表格对比一下数据库的模�p�查询：

　 Lucene全文索引引擎数据�?/TD>

索引 ��数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/TD>

匚w��效果通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/TD> 使用�Q�like "%net%" 会把netherlands也匹配出来，
多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com

匚w��?/TD> 有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/TD> 没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/TD>

�l�果输出通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/TD> �q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/TD>

可定制�?/TD> 通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）没有接口或接口复杂，无法定制

�l�论高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/TD> 使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

全文��索和数据库应用最大的不同在于�Q�让最相关�?/SPAN>�?00条结果满��?8%以上用户的需�?BR>
Lucene的创��C��处：

大部分的搜烦�Q�数据库�Q�引擎都是用B树结构来�l�护索引�Q�烦引的更新会导致大量的IO操作�Q�Lucene在实��C��Q�对此稍微有所改进�Q�不是维护一个烦引文�Ӟ��而是在扩展烦引的时候不断创建新的烦引文�Ӟ��然后定期的把�q�些新的��烦引文件合�q�到原先的大索引中（针对不同的更新策略，�Ҏ��的大��可以调��_��Q�这样在不媄响检索的效率的前提下�Q�提高了索引的效率�?/P>
Lucene和其他一些全文检索系�l?应用的比较：

　 Lucene 其他开源全文检索系�l?/TD>

增量索引和批量烦�?/TD> 可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/TD> 很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/TD>

数据�?/TD> Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/TD>

索引内容抓取 Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?BR> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?BR> 不需要进行分词的索引�Q�比如：作�?日期字段 �~�Z��通用性，往往��文档整个烦引了

语言分析通过语言分析器的不同扩展实现�Q?BR>可以�q��o掉不需要的词：an the of �{�，
西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?BR>非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/TD> �~�Z��通用接口实现

查询分析通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：
比如�Q?多个关键词之间的 + - and or关系�{?/TD> 　

�q�发讉K�� 能够支持多用��L��使用　

　

关于亚洲语言的的切分词问�?Word Segment)

对于中文来说�Q�全文烦引首先还要解决一个语�a�分析的问题，对于英文来说�Q�语句中单词之间是天焉��过�I�格分开的，但亚�z�语�a�的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行烦引的话，�q�个词如何切分出来就是一个很大的问题�?/P>
首先�Q�肯定不能用单个字符�?si-gram)为烦引单元，否则查“上��”时�Q�不能让含有“�v上”也匚w��?/P>
但一句话�Q�“北京天安门”，计算机如何按照中文的语言习惯�q�行切分呢？
“北�?天安门�?�q�是“北 �?天安门”？让计��机能够按照语言习惯�q�行切分�Q�往往需要机器有一个比较丰富的词库才能够比较准��的识别��句中的单词�?/P>
另外一个解决的办法是采用自动切分算法：��单词按�?元语�?bigram)方式切分出来�Q�比如：
"北京天安�? ==> "北京京天天安安门"�?/P>
�q�样�Q�在查询的时候，无论是查�?北京" �q�是查询"天安�?�Q�将查询词组按同��L��规则�q�行切分�Q?北京"�Q?天安安门"�Q�多个关键词之间按与"and"的关�pȝ��合，同样能够正确地映��到相应的烦引中。这�U�方式对于其他亚�z�语�a��Q�韩文，日文都是通用的�?/P>
��Z��自动切分的最大优�Ҏ��没有词表�l�护成本�Q�实现简单，�~�点是烦引效率低�Q�但对于中小型应用来��_��Z��2元语法的切分�q�是够用的。基�?元切分后的烦引一般大��和源文件差不多�Q�而对于英文，索引文�g一般只有原文�g�?0%-40%不同�Q?/P>

自动切分词表切分

实现实现非常��?/TD> 实现复杂

查询增加了查询分析的复杂�E�度�Q?/TD> 适于实现比较复杂的查询语法规�?/TD>

存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大��的30�Q�左�?/TD>

�l�护成本无词表维护成�?/TD> 词表�l�护成本非常高：中日韩等语言需要分别维护�?BR>�q�需要包括词频统计等内容

适用领域嵌入式系�l�：�q�行环境资源有限
分布式系�l�：无词表同步问�?BR>多语�a�环境�Q�无词表�l�护成本 �Ҏ��询和存储效率要求高的专业搜烦引擎

目前比较大的搜烦引擎的语�a�分析��法一般是��Z��以上2个机制的�l�合。关于中文的语言分析��法�Q�大家可以在Google查关键词"wordsegment search"能找到更多相关的资料�?/P>
安装和��?/B>

下蝲�Q?A >http://jakarta.apache.org/lucene/

注意�Q�Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC�Q�JavaCompilerCompiler�Q�纯Java的词法分析生成器�Q�，所以如果从源代码编译或需要修改其中的QueryParser、定制自��q��词法分析器，�q�需要从https://javacc.dev.java.net/下蝲javacc�?/P>
lucene的组成结构：对于外部应用来说索引模块(index)和检索模�?search)是主要的外部应用入口

org.apache.Lucene.search/ 搜烦入口

org.apache.Lucene.index/ 索引入口

org.apache.Lucene.analysis/ 语言分析�?/TD>

org.apache.Lucene.queryParser/ 查询分析�?/TD>

org.apache.Lucene.document/ 存储�l�构

org.apache.Lucene.store/ 底层IO/存储�l�构

org.apache.Lucene.util/ 一些公用的数据�l�构

��单的例子演示一下Lucene的��用方法：
索引�q�程�Q�从命��o行读取文件名�Q�多个）�Q�将文�g分�\�?path字段)和内�?body字段)2个字�D�进行存储，�q�对内容�q�行全文索引�Q�烦引的单位是Document对象�Q�每个Document对象包含多个字段Field对象�Q�针对不同的字段属性和数据输出的需求，对字�D�还可以选择不同的烦�?存储字段规则�Q�列表如下：

�Ҏ�� 切词索引存储用�?/TH>

Field.Text(String name, String value) Yes Yes Yes 切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/TD>

Field.Text(String name, Reader value) Yes Yes No 切分词烦引不存储�Q�比如：META信息�Q?BR>不用于返回显�C�，但需要进行检索内�?/TD>

Field.Keyword(String name, String value) No Yes Yes 不切分烦引�ƈ存储�Q�比如：日期字段

Field.UnIndexed(String name, String value) No No Yes 不烦引，只存储，比如�Q�文件�\�?/TD>

Field.UnStored(String name, String value) Yes Yes No 只全文烦引，不存�?/TD>
public class IndexFiles {
//使用�Ҏ��Q? IndexFiles [索引输出目录] [索引的文件列表] ...
public static void main(String[] args) throws Exception {
String indexPath = args[0];
IndexWriter writer;
//用指定的语言分析器构造一个新的写索引器（�W?个参数表�C�是否�ؓ�q�加索引�Q?BR> writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);

for (int i=1; i System.out.println("Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);

//构造包�?个字�D�Field的Document对象
//一个是路径path字段�Q�不索引�Q�只存储
//一个是内容body字段�Q�进行全文烦引，�q�存�?BR> Document doc = new Document();
doc.add(Field.UnIndexed("path", args[i]));
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
//��文档写入烦�?BR> writer.addDocument(doc);
is.close();
};
//关闭写烦引器
writer.close();
}
}
　

索引�q�程中可以看刎ͼ�

语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的�Q�虽然lucene�~�省提供�?个比较通用的分析器SimpleAnalyser和StandardAnalyser�Q�这2个分析器�~�省都不支持中文�Q�所以要加入对中文语�a�的切分规则，需要修改这2个分析器�?
Lucene�q�没有规定数据源的格式，而只提供了一个通用的结构（Document对象�Q�来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档�Q�PDF文档�Q�HTML文档……只要能够设计相应的解析转换器将数据源构造成成Docuement对象卛_��q�行索引�?
对于大批量的数据索引�Q�还可以通过调整IndexerWrite的文件合�q��率属性（mergeFactor�Q�来提高扚w��索引的效率�?

��索过�E�和�l�果昄��Q?/P>
搜烦�l�果�q�回的是Hits对象�Q�可以通过它再讉K��Document==>Field中的内容�?/P>
假设�Ҏ��body字段�q�行全文��索，可以��查询结果的path字段和相应查询的匚w��?score)打印出来�Q?/P>
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[0], queryString = args[1];
//指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
//查询解析器：使用和烦引同��L��语言分析�?BR> Query query = QueryParser.parse(queryString, "body",
new SimpleAnalyzer());
//搜烦�l�果使用Hits存储
Hits hits = searcher.search(query);
//通过hits可以讉K��到相应字�D늚�数据和查询的匚w��?BR> for (int i=0; i System.out.println(hits.doc(i).get("path") + "; Score: " +
hits.score(i));
};
}
}
在整个检索过�E�中�Q�语�a�分析器，查询分析器，甚至搜烦器（Searcher�Q�都是提供了抽象的接口，可以�Ҏ��需要进行定制�?
Hacking Lucene

��化的查询分析�?/B>

个�h感觉lucene成�ؓJAKARTA��目后，��d��了太多的旉��用于调试日趋复杂QueryParser�Q�而其中大部分是大多数用户�q�不很熟悉的�Q�目前LUCENE支持的语法：

Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")

中间的逻辑包括�Q�and or + - &&||�{�符��P��而且�q�有"短语查询"和针对西文的前缀/模糊查询�{�，个�h感觉对于一般应用来��_��q�些功能有一些华而不实，其实能够实现目前�c�M��于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择�?/P>
��d��修改删除指定记录�Q�Document�Q?/B>

Lucene提供了烦引的扩展机制�Q�因此烦引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另徏索引�Q�然后利用IndexReader.delete(Termterm)�Ҏ��通过�q�个记录ID删除相应的Document�?/P>
�Ҏ��某个字段值的排序功能

lucene�~�省是按照自��q��相关度算法（score�Q�进行结果排序的�Q�但能够�Ҏ��其他字段�q�行�l�果排序是一个在LUCENE的开发邮件列表中�l�常提到的问题，很多原先��Z��数据库应用都需要除了基于匹配度�Q�score�Q�以外的排序功能。而从全文��索的原理我们可以了解刎ͼ��M��不基于烦引的搜烦�q�程效率都会��D��效率非常的低�Q�如果基于其他字�D늚�排序需要在搜烦�q�程中访问存储字�D�，速度回大大降低，因此非常是不可取的�?/P>
但这里也有一个折中的解决�Ҏ��Q�在搜烦�q�程中能够媄响排序结果的只有索引中已�l�存储的docID和score�q?个参敎ͼ�所以，��Z��score以外的排序，其实可以通过��数据源预先排好序，然后�Ҏ��docID�q�行排序来实现。这样就避免了在LUCENE搜烦�l�果外对�l�果再次�q�行排序和在搜烦�q�程中访问不在烦引中的某个字�D�倹{�?/P>
�q�里需要修改的是IndexSearcher中的HitCollector�q�程�Q?/P>
...
　scorer.score(new HitCollector() {
private float minScore = 0.0f;
public final void collect(int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits==null || bits.get(doc))) { // skip docs not in bits
totalHits[0]++;
if (score >= minScore) {
/* 原先�Q�Lucene��docID和相应的匚w��度score例入�l�果命中列表中：
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc �?1/doc 代替 score�Q�就实现了根据docID��排或逆排
* 假设数据源烦引时已经按照某个字段排好了序�Q�而结果根据docID排序也就实现�?BR> * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合�?BR> */
hq.put(new ScoreDoc(doc, (float) 1/doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());

更通用的输入输出接�?/B>

虽然lucene没有定义一个确定的输入文档格式�Q�但��来��多的�h惛_��使用一个标准的中间格式作�ؓLucene的数据导入接口，然后其他数据�Q�比如PDF只需要通过解析器�{换成标准的中间格式就可以�q�行数据索引了。这个中间格式主要以XML��Z��Q�类似实现已�l�不�?�Q?个：
数据�? WORD PDF HTML DB other
\ | | | /
XML中间格式
|
Lucene INDEX

目前�q�没有针对MSWord文档的解析器�Q�因为Word文档和基于ASCII的RTF文档不同�Q�需要��用COM对象机制解析。这个是我在Google上查的相兌��料：http://www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text�Q?A >http://www.winfield.demon.nl/index.html

索引�q�程优化

索引一般分2�U�情况，一�U�是��批量的索引扩展�Q�一�U�是大批量的索引重徏。在索引�q�程中，�q�不是每�ơ新的DOC加入�q�去索引都重新进行一�ơ烦引文件的写入操作�Q�文件I/O是一仉��常消耗资源的事情�Q��?/P>
Lucene先在内存中进行烦引操作，�q�根据一定的扚w��q�行文�g的写入。这个批�ơ的间隔��大�Q�文件的写入�ơ数��少�Q�但占用内存会很多。反之占用内存少�Q�但文�gIO操作频繁�Q�烦引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造烦引器后根据应用环境的情况充分利用内存减少文�g的操作。根据我的��用经验：�~�省Indexer是每20条记录烦引后写入一�ơ，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左叟�?BR>

搜烦�q�程优化

lucene支持内存索引�Q�这��L��搜烦比基于文件的I/O有数量��的速度提升�?BR>http://www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和�Ҏ��索结果的前台的缓存也是必要的�?BR>

Lucene面向全文��索的优化在于首次索引��索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而�v只将所有结果中匚w��度最高的�?00条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��索：如果是一�?0,000条的数据库检索结果集�Q�数据库是一定要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会很多。对于一般的模糊��索应用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?BR>

如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher会再�ơ检索�ƈ生成一个上�ơ的搜烦�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如果构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了2�ơ搜索过�E�：�?00条取完后�Q�缓存结果用完，Searcher重新��索再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到了，你有可能惛_��l�果记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��索，而且可以分��q�行�l�果�~�存�?BR>

Lucene的另外一个特�Ҏ��在收集结果的�q�程中将匚w��度低的结果自动过滤掉了。这也是和数据库应用需要将搜烦的结果全部返回不同之处�?/P>
我的一些尝�?/A>�Q?/P>

支持中文的Tokenizer�Q�这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字�W�一个TOKEN索引�Q�另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN�Q�对中文按�P代烦引�?
��Z��XML数据源的索引器：XMLIndexer�Q�因此所有数据源只要能够按照DTD转换成指定的XML�Q�就可以用XMLIndxer�q�行索引了�?
�Ҏ��某个字段排序�Q�按记录索引��序排序�l�果的搜索器�Q�IndexOrderSearcher�Q�因此如果需要让搜烦�l�果�Ҏ��某个字段排序�Q�可以让数据源先按某个字�D�|��好序�Q�比如：PriceField�Q�，�q�样索引后，然后在利用这个按记录的ID��序��索的搜烦器，�l�果��是相当于是那个字段排序的结果了�?

从Lucene学到更多

Luene的确是一个面对对象设计的典范

所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自��q��目的�Q�而对其他模块而不需要；
��单的应用入口Searcher, Indexer�Q��ƈ调用底层一�p�d��l��g协同的完成搜索�Q务；
所有的对象的�Q务都非常专一�Q�比如搜索过�E�：QueryParser分析��查询语句�{换成一�p�d��的精��查询的�l�合(Query),通过底层的烦引读取结构IndexReader�q�行索引的读取，�q�用相应的打分器�l�搜索结果进行打�?排序�{�。所有的功能模块原子化程度非帔R��Q�因此可以通过重新实现而不需要修改其他模块�?nbsp;
除了灉|��的应用接口设计，Lucene�q�提供了一些适合大多数应用的语言分析器实玎ͼ�SimpleAnalyser,StandardAnalyser�Q�，�q�也是新用户能够很快上手的重要原因之一�?

�q�些优点都是非常值得在以后的开发中学习借鉴的。作��Z��个通用工具包，Lunece的确�l�予了需要将全文��索功能嵌入到应用中的开发者很多的便利�?/P>
此外�Q�通过对Lucene的学习和使用�Q�我也更深刻地理解了��Z��么很多数据库优化设计中要求，比如�Q?/P>

��可能对字段�q�行索引来提高查询速度�Q�但�q�多的烦引会�Ҏ��据库表的更新操作变慢�Q�而对�l�果�q�多的排序条�Ӟ��实际上往往也是性能的杀手之一�?
很多商业数据库对大批量的数据插入操作会提供一些优化参敎ͼ��q�个作用和烦引器的merge_factor的作用是�c�M��的，
20%/80%原则�Q�查的结果多�q�不�{�于质量好，��其对于�q�回�l�果集很大，如何优化�q�头几十条结果的质量往往才是最重要的�?
��可能让应用从数据库中获得比较小的结果集�Q�因为即使对于大型数据库�Q�对�l�果集的随机讉K��也是一个非常消耗资源的操作�?BR>

参考资料：

Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开�?用户邮�g列表归档
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org

The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html

Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html

Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/

中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment

搜烦引擎工具介绍
http://searchtools.com/

Lucene作者Cutting的几��论文和专利
http://lucene.sourceforge.net/publications.html

Lucene�?NET实现�Q�dotLucene
http://sourceforge.net/projects/dotlucene/

Lucene作者Cutting的另外一个项目：��Z��Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/

关于��Z��词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html

2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说

gaich 2005-06-30 11:19 发表评论

[�H�门] MS SQL Server 压羃日志及数据库文�g大小

gaich — Thu, 30 Jun 2005 03:13:00 GMT

/*--特别注意

��h��步骤�q�行,未进行前面的步骤,请不要做后面的步�?
否则可能损坏你的数据�?

一般不��做第4,6两步
�W?步不安全,有可能损坏数据库或丢失数�?
�W?步如果日志达��C��?则以后的数据库处理会��p�|,在清理日志后才能恢复.
--*/

1.清空日志
DUMP TRANSACTION 库名 WITH NO_LOG

2.截断事务日志�Q?
BACKUP LOG 数据库名 WITH NO_LOG

3.收羃数据库文�?如果不压�~?数据库的文�g不会减小
企业��理�?-右键你要压羃的数据库--所有�Q�?-收羃数据�?-收羃文�g
--选择日志文�g--在收�~�方式里选择收羃至XXM,�q�里会给��Z��个允许收�~�到的最��M�?直接输入�q�个�?��定��可以了
--选择数据文�g--在收�~�方式里选择收羃至XXM,�q�里会给��Z��个允许收�~�到的最��M�?直接输入�q�个�?��定��可以了

也可以用SQL语句来完�?
--收羃数据�?
DBCC SHRINKDATABASE(客户资料)

--收羃指定数据文�g,1是文件号,可以通过�q�个语句查询�? select * from sysfiles
DBCC SHRINKFILE(1)

4.��Z��最大化的羃��日志文�?如果是sql 7.0,�q�步只能在查询分析器中进�?
a.分离数据�?
企业��理�?-服务�?-数据�?-右键--分离数据�?

b.在我的电脑中删除LOG文�g

c.附加数据�?
企业��理�?-服务�?-数据�?-右键--附加数据�?

此法��生成新的LOG�Q�大��只�?00多K

或用代码�Q?
下面的示例分��?pubs�Q�然后将 pubs 中的一个文仉��加到当前服务器�?

a.分离
EXEC sp_detach_db @dbname = 'pubs'

b.删除日志文�g

c.再附�?
EXEC sp_attach_single_file_db @dbname = 'pubs',
@physname = 'c:\Program Files\Microsoft SQL Server\MSSQL\Data\pubs.mdf'

5.��Z��以后能自动收�~?做如下设�|?
企业��理�?-服务�?-右键数据�?-属�?-选项--选择"自动收羃"

--SQL语句讄��方式:
EXEC sp_dboption '数据库名', 'autoshrink', 'TRUE'

6.如果想以后不让它日志增长得太�?
企业��理�?-服务�?-右键数据�?-属�?-事务日志
--��文件增镉K��制�ؓxM(x是你允许的最大数据文件大��?

--SQL语句的设�|�方�?
alter database 数据库名 modify file(name=逻辑文�g�?maxsize=20)

转蝲�? http://bbs.qq.com/cgi-bin/bbs/show/content?groupid=102:10055&st=&sc=&messageid=53277

gaich 2005-06-30 11:13 发表评论