亚洲国产精品美女,亚洲色偷偷综合亚洲AVYP,午夜亚洲乱码伦小说区69堂

Lucene的烦(ch��)引结构图

鹏飞万里 — Wed, 27 Feb 2008 10:14:00 GMT

反向索引�Q?br />

正向索引�Q�草�E�，不完全，因�ؓ(f��)收到field info的媄(ji��ng)响，不同的field存储内容不同�Q�且fieldInfo的有些信�?TOKENIZED BINARY COMPRESSED也是保存�?fdt的每个document相关�D늚�bits�?而不�?fnm中）(j��):

鹏飞万里 2008-02-27 18:14 发表评论

Lucene和GCJ

鹏飞万里 — Thu, 14 Feb 2008 07:27:00 GMT

Lucene�?.9版本的时候就已经加入�?ji��n)对GCJ的支持，利用GCJ�~�译Lucene�Q��ƈ且��用新的GCJIndexInput.java��d��文�g�pȝ��Q?br /> 直接调用操作�pȝ��U�别的native�Ҏ(gu��)��Q�相信读写性能能够极大得提高啊�?br />
具体代码可见Lucene的gcj目录�Q�编译��用ant gcj

鹏飞万里 2008-02-14 15:27 发表评论

备忘�Q�lucene中的ranking��法

鹏飞万里 — Sat, 09 Feb 2008 09:58:00 GMT

说明见Similarity.java的javadoc信息�Q?br />

��法请参考javadoc的，它��用的�?a onclick="return top.js.OpenExtLink(window,event,this)" target="_blank">Vector Space Model (VSM) of Information Retrieval�?

针对一条查询语句q(query)�Q�一个d(document)的得分公�?/div>

score(q,d) = coord(q,d) · queryNorm(q) ·	�?/big>	( tf(t in d) · idf(t)² · t.getBoost() · norm(t,d) )
	t in q

其中�Q?/div>

tf(t in d) 表示某个term的出现频率，定义�?ji��n)term t出现在当前地document d的次数�?那些query中给定地term�Q�如果出现越多次的，得分��高。它在默认实现DefaultSimilarity的公式�ؓ(f��)

tf(t in d) = frequency^½

idf(t) 表示反向文��频率。这个参数表�C�docFreq(term t一共在多少个文��中出现)的反向媄(ji��ng)响倹{��它意味着在越��文档中�?wbr>现的terms贡献��高地分数。它在默认实现DefaultSimilarity的公式�ؓ(f��):

idf(t) =

1 + log (

numDocs

–––––––––

docFreq+1

)

coord(q,d) 是一个基于在该文��中出现�?ji��n)多��个query中的terms的得�?wbr>因素。文档中出现的query中的terms数量/query��d��多少个query数量。典型的�Q�一个文��包含越多地query中的terms�?x��)得�?wbr>更高地分。This is a search time factor computed in coord(q,d) by the Similarity in effect at search time.
queryNorm(q) 是一个标准化参数�Q�它是用来区分比较不同queries时的因素�Q�这个因素不影响document ranking (因�ؓ(f��)所有的ranked document都会(x��)乘�(sh��)��相同的�?�Q�但是不同地queries�Q�或�q�不同地indexes中）(j��)它会(x��)得到不同的可用于比较的�?wbr>。This is a search time factor computed by the Similarity in effect at search time. 它在默认实现DefaultSimilarity的公式�ؓ(f��):

queryNorm(q) = queryNorm(sumOfSquaredWeights) =

––––––––––––––

sumOfSquaredWeights^½

其中的sumOfSquaredWeights(of the query terms)是根据the query Weight object计算出来�? For example, a boolean query computes this value as:

`sumOfSquaredWeights` = `q.getBoost()` ² ·	�?/big>	( idf(t) · t.getBoost() ) ²
	t in q

t.getBoost() 是一个term t在query q中的search time boost�Q?它是在the query text (see query syntax)中指定的, 或者被应用�E�序直接调用setBoost()讄��? 注意�Q�这儿没有直接的API去访问在 a multi term query的一个term的boost��|��但是multi terms�?x��)以multi TermQuery objects在一个query中被表示,因此the boost of a term in the query可以使用子query�?a>getBoost()反问�?

norm(t,d) ��装(encapsulates)�?ji��n)一�?indexing time)的boost和length factors: ???�q�个参数之和field中tokens的数量有�?wbr>�Q�和term本��n无关???

Document boost - set by calling doc.setBoost() before adding the document to the index.

Field boost - set by calling field.setBoost() before adding the field to a document.

lengthNorm(field) -。当文��被加入到索引时计��，�Q�和document的field中的tokens的数量有养I��因此�Q�一个比较短的fields贡献更高的分数。LengthNorm is computed by the Similarity class in effect at indexing. DefaultSimilarity中的实现�?float)(1.0 / Math.sqrt(numTerms));

当一个文��被加入索引�Ӟ��上述因素�?x��)被�怹�。如果文��有多个fields同名�Q�他们的boosts数��g��(x��)被多�ơ相乘�?br />

norm(t,d) = `doc.getBoost()` · `lengthNorm(field)` ·	∏	`f.getBoost`()
	field f in d named as t

但是�Q�计��出的norm数值在存储时是使用一个a single byte�~�码的。search�Ӟ��q�个norm byte从index directory��d��Q��ƈ且被解码回float。这个编�?wbr>/解码��法�?x��)��生精度丢失�?nbsp;- it is not guaranteed that decode(encode(x)) = x. For instance, decode(encode(0.89)) = 0.75. Also notice that search time is too late to modify this norm part of scoring, e.g. by using a different Similarity for search.

鹏飞万里 2008-02-09 17:58 发表评论

Lucene如何控制segments的数�?

鹏飞万里 — Tue, 05 Feb 2008 17:58:00 GMT

Lucene的烦(ch��)引文�Ӟ��?x��)包含很多个segments文�g�Q�每个segment中包含多个documents文�g�Q�一个segment中会(x��)有完整的正向索引和反向烦(ch��)引�?br /> 在搜索时�Q�Lucene�?x��)遍历这些segments�Q�以segments为基本单位独立搜索每个segments文�g�Q�而后再把搜烦(ch��)�l�果合�ƈ�?br />
建立索引文�g的过�E�，实际��是把documents文�g一个个加入索引中，Lucene的做法是最开始�ؓ(f��)每个新加入的document独立生成一个segment�Q�放在内存�(sh��)��。而后�Q�当内存?sh��)��segments数量到达一个阙值时�Q�合�q�这些segments�Q�新生成一个segment加入文�g�pȝ��的segments列表中�?br /> 而当文�g�pȝ��的segments数量�q�多�Ӟ��势必影响搜烦(ch��)效率�Q�因此需要不断合�q�这些segments文�g�?br />
那么Lucene的合�q�策略是什么？如何保证合适的segments数量呢？

其实Lucene有两套基本的�{�略�Q?br /> �W�一�U�策略实��C��码位于IndexWriter#optimize()函数�Q�其实就是把所有segments文�g合�ƈ成一个文件。合�q�的��法是递归合�ƈ列表最后的mergeFactor个segments文�g直到合�ƈ成一个文件。这儿mergeFactor是Lucene的一个参数�?br /> btw: 从算法细节上看，其实我不是喜�Ƣ这�D�实玎ͼ�因�ؓ(f��)列表的最后mergeFactor个文件内容实际被扫描�?ji��n)segmens_count/mergeFactor�ơ。如果分�D�归�U�_��q�的方式不知道是否更好，每个segment文�g内容都将被扫�?ceil(Log_mergeFactor(segmens_count)) 或ceil(Log_mergeFactor(segmens_count)) +1�ơ，是否更好?

�W�二�U�策略实��C��码位于IndexWriter#maybeMergeSegments()函数中，�q�个代码��复杂了(ji��n)�Q�它的基本策略就是要求确保合�q�后两个公式的成�?
假定segments是个有序列表�Q�B表示maxBufferedDocs�Q�f(n)=ceil(log_M(ceil(n/B)))�Q�M表示mergeFactor�Q�这儿maxBufferedDocs和mergeFactor是两个参�?br /> 1. 如果�W�i个segment的documents数量为x�Q�第i+1个segment的documents数量为y�Q�那么f(x)>f(y)一定成�?br /> 2. f(n)值相同的segments的数量不得超�q�M�?br /> 那么maybeMergeSegments()函数是如何确保这两个公式成立的呢?
1.首先�Q�从代码�Q?br />

    protected final void maybeFlushRamSegments() throws IOException {
        // A flush is triggered if enough new documents are buffered or
        // if enough delete terms are buffered
        if (ramSegmentInfos.size() >= minMergeDocs
                || numBufferedDeleteTerms >= maxBufferedDeleteTerms) {
            flushRamSegments();
        }
    }

�q�儿minMergeDocs=maxBufferedDocs, 因此可以看出�Q�当内存?sh��)��缓存的segments被合�q�写回磁盘时生成的segment的document count�{�于或小于maxBufferedDocs�Q�即minMergeDocs�Q��?br /> 补充�Q�因为maybeMergeSegments()�q�行在同步代码中�Q�因此只要ramSegmentInfos.size==minMergerDocs(即maxBufferedDocs)��׃��(x��)写回��盘�Q�因此应该不存在ramSegmentInfos.size>maxBufferedDocs才写回的情况。而且�Q�但如果是这�U�情况，因�ؓ(f��)合�ƈ后的segment文�g的document count�q�大�Q�后面的maybeMergeSegments()��不做合�q�处理直接退出，上述公式��可能不成立�Q�那么算法将有错�?/span>
----
2.
2.1 因此maybeMergeSegments()�W�一�ơ执行时�Q�所有segments的document count都小于等于maxBufferedDocs。此�Ӟ��从i=0开始，合�ƈi~i+mergeFactor-1个文�Ӟ��如果合�ƈ后的doc count>maxBufferedDocs�Ӟ��保留�W�i个segment�Q�否则��(h��)�l�合�q�改变后的i~i+mergeFactor-1�Q�直到doc count>maxBufferedDocs或所有segments文�g个数已经maxBufferedDocs�q?lt;maxBufferedDocs*mergeFactor�?ji��n)�?br /> 2.2 �q�时�Q�不理会(x��)最�?lt;mergeFactor个doc count 2.3 重复2.2�Q�最后得到的列表��׃��(x��)满��上述两等式的成立
---
3
之后�Q�每�ơ从内存�~�存?sh��)��flush��Z��个新的segment�Ӟ��也就是往(xi��n)�q�个segments列表的最后增加一个doc_count<=maxBufferedDocs的文�Ӟ��同样执行上述步骤2�q�行合�ƈ�Q�能够始�l�保证上�q�C��公式的成立�?br /> ----
4
4.1
IndexWriter#addIndexesNoOptimize同样借鉴使用�?ji��n)maybeMergeSegments()��法�Q�区别此�Ӟ��实际是已有一个符合两公式的segments序列T�Q�在T之后�q�加上随意顺序的segments序列S。这�Ӟ��我们先找到S中doc count值最大的那个segment�Q�计��出它属于的区间f(x)�Q��得maxBufferedDocs*mergeFactor^xmaxBufferedDocs*mergeFactor^(x+1) b.�W�合上述2�{�式�?br /> btw: 因�ؓ(f��)�q�儿调用IndexWriter#addIndexesNoOptimize传入的参数是maxBufferedDocs*mergeFactor^(x+1)�Q�因为S所有segment的doc count都一定小于maxBufferedDocs*mergeFactor^(x+1)�Q�因此S的所有元素都�?x��)参与收�~�合�q��?br /> 4.2 ��最�?lt;mergerFactor个doc count -----

上述两种�{�略�Q�最�l�确保了(ji��n)Lucene中的segments不会(x��)太多,��保效率�?br />
BTW�Q�实际上�Q�如果documents太多�Ӟ��Lucene�q�支持把docuements分成几个�l�，每个�l�用独立的进�E�或�?sh��)脑�q�行索引�Q�而后再多个目录的索引合�ƈ��h��Q�具体可参考IndexWriter#addIndexesNoOptimize和IndexWriter#addIndexes函数

鹏飞万里 2008-02-06 01:58 发表评论

备忘�Q�lucene的一些enum�c�d��

鹏飞万里 — Tue, 29 Jan 2008 06:02:00 GMT

FieldSelectorResult:枚�D�Q�分别�ؓ(f��)
        LOAD Document#getFieldable和Document#getField不会(x��)�q�回null
        LAZY_LOAD :Lazy的Field意味着在搜索结果里�q�个Field的值缺省是不读取的�Q�只有当你真正对�q�个Field取值的时候才�?x��)去取。所以如果你要对它取��|��你得保证IndexReader�q�没有close�?Document#getField不能使用�Q�只能��用Document#getFieldable
        NO_LOAD Document#getField和Document#getFieldable都返回null�Q�Document#add不被调用�?br />         LOAD_AND_BREAK �c�M��LOAD�Q�Document#getField和Document#getFieldable都可用，但返回后��q��束，Document可能没有完整的field的Set�Q�参考LoadFirstFieldSelector �?br />         LOAD_FOR_MERGE �c�M��LOAD�Q�但不压�~��Q何数据。只被SegmentMerger的一个FieldSelector匿名内嵌实现�c�M��用。Document#getField和Document#getFieldable可返回null.
        SIZE �q�回Field的size而不是value. Size表示存储�q�个field需要的bytes數，string数��g��?*chars。size被存储�ؓ(f��)a binary value�Q�表��Cؓ(f��)as an int in a byte[]�Q�with the higher order byte first in [0]�?br />         SIZE_AND_BREAK �c�M��SIZE�Q�但立刻break from the field loading loop, i.e. stop loading further fields, after the size is loaded

======================================

Field中三大enum: Store Index和TermVector�Q?br />

       ------------------------------------
        Store.COMPRESS Store the original field value in the index in a compressed form. This is useful for long documents and for binary valued fields.压羃存储�Q?br />         Store.YES Store the original field value in the index. This is useful for short texts like a document's title which should be displayed with the results. The value is stored in its original form, i.e. no analyzer is used before it is stored. 索引文�g本来只存储烦(ch��)引数�? 此设计将原文内容直接也存储在索引文�g中，如文档的标题�?br />         Store.NO Do not store the field value in the index. 原文不存储在索引文�g中，搜烦(ch��)�l�果命中后，再根据其他附加属性如文�g的Path�Q�数据库的主键等�Q�重新连接打开原文�Q�适合原文内容较大的情��c(di��n)�?br />         军_��?ji��n)Field对象�?this.isStored �?nbsp;       this.isCompressed
     ------------------------------------
        Index.NO Do not index the field value. This field can thus not be searched, but one can still access its contents provided it is Field.Store stored. 不进行烦(ch��)引，存放不能被搜索的内容如文��的一些附加属性如文��c�d��, URL�{��?br />         Index.TOKENIZED Index the field's value so it can be searched. An Analyzer will be used to tokenize and possibly further normalize the text before its terms will be stored in the index. This is useful for common text. 分词索引
        Index.UN_TOKENIZED Index the field's value without using an Analyzer, so it can be searched. As no analyzer is used the value will be stored as a single term. This is useful for unique Ids like product numbers. 不分词进行烦(ch��)引，如作者名�Q�日期等�Q�Rod Johnson本��n��Z��单词�Q�不再需要分词�?/p>

        Index.NO_NORMS 不分词，建烦(ch��)引。norms是什�???字段�???。但是Field的��g��像通常那样被保存，而是只取一个byte�Q�这栯��U�存储空�???? Index the field's value without an Analyzer, and disable the storing of norms. No norms means that index-time boosting and field length normalization will be disabled. The benefit is less memory usage as norms take up one byte per indexed field for every document in the index.Note that once you index a given field with norms enabled, disabling norms will have no effect. In other words, for NO_NORMS to have the above described effect on a field, all instances of that field must be indexed with NO_NORMS from the beginning.
        军_��?ji��n)Field对象�?this.isIndexed this.isTokenized this.omitNorms
     ------------------------------------
        Lucene 1.4.3新增的：(x��)
        TermVector.NO Do not store term vectors. 不保存term vectors
        TermVector.YES Store the term vectors of each document. A term vector is a list of the document's terms and their number of occurences in that document. 保存term vectors�?
        TermVector.WITH_POSITIONS Store the term vector + token position information 保存term vectors。（保存值和token位置信息�Q?br />         TermVector.WITH_OFFSETS Store the term vector + Token offset information
        TermVector.WITH_POSITIONS_OFFSETS Store the term vector + Token position and offset information 保存term vectors。（保存值和Token的offset�Q?br />         军_��?ji��n)Field对象的this.storeTermVector this.storePositionWithTermVector this.storeOffsetWithTermVector

鹏飞万里 2008-01-29 14:02 发表评论

鹏飞万里 — Tue, 29 Jan 2008 04:58:00 GMT

Closure: http://en.wikipedia.org/wiki/Closure_%28computer_science%29
我还比较喜欢Microsoft的一�D�说明，位于链接http://msdn.microsoft.com/msdnmag/issues/07/09/BasicInstincts/Default.aspx?loc=zh中，查找“Lambda 表达式和变量提升”

最早接触Closure是在学javascript, 前年�q�写�?ji��n)篇关于Closure对javascript内存泄露的文�?a href="http://m.tkk7.com/tim-wu/archive/2006/05/29/48729.html">http://m.tkk7.com/tim-wu/archive/2006/05/29/48729.html
一直以��是函数式语�a�的特性，��多��是.net的委托和它有几分相识�Q?br /> 没想到现在Java7也要支持�?ji��n)，有兴��的朋友可以去读读�?x��)
http://www.javac.info/
没细读，不知道Lambda在Java�q�种强类型检查的语言中表现的如何�?br />
作�ؓ(f��)函数语言�Q�Ruby中一直都有closure的用法，http://samdanielson.com/2007/3/19/proc-new-vs-lambda-in-ruby有个��单例子�?/p>

def foo
  f = Proc.new { return "return from foo from inside proc" }
  f.call # control leaves foo here
  return "return from foo"
end

def bar
  f = lambda { return "return from lambda" }
  f.call # control does not leave bar here
  return "return from bar"
end

puts foo # prints "return from foo from inside proc"
puts bar # prints "return from bar"

最�q�，ruby 1.9又提供了(ji��n)新的定义lambda

x = ->{puts "Hello Lambda"}

参见 http://www.infoq.com/cn/news/2008/01/new-lambda-syntax

VB 2008也支持了(ji��n)�Q�这个链接有个例子，又是Lambda�Q�又是范型，�Q�又是委托回�?/strong>�Q�很有意思：(x��)
http://msdn.microsoft.com/msdnmag/issues/07/09/BasicInstincts/Default.aspx?loc=zh
VB�?#8220;需要注意的一炚w��制是�Q�lambda 表达式完全就是一个单个表辑ּ�。在 Visual Basic 2008 中，�(zh��n)�在 lambda 表达式中只能有一个单个表辑ּ�。在本专栏中�Q�我��进一步向�(zh��n)�展�C?Visual Basic 2008 中引入的一个新的三元运��符�Q�它?y��u)��允许�(zh��n)�构造条件表辑ּ��Q�但目前的功能不支持�?lambda 表达式中使用��L��语句�?#8221;

鹏飞万里 2008-01-29 12:58 发表评论

备忘:lucene的几�U�常用Analyzer

鹏飞万里 — Fri, 25 Jan 2008 18:03:00 GMT

以下内容均�ؓ(f��)转蝲,url见具体链�?

最常见的四个Analyzer,说明: http://windshowzbf.bokee.com/3016397.html
WhitespaceAnalyzer 仅仅是去除空��|��对字�W�没有lowcase�?不支持中�?br /> SimpleAnalyzer :功能��Z��WhitespaceAnalyzer,��除去letter之外的符号全部过滤掉,�q�且��所有的字符lowcase�?不支持中�?br /> StopAnalyzer: StopAnalyzer的功能超��了(ji��n)SimpleAnalyzer�Q�在SimpleAnalyzer的基��?增加�?ji��n)去除StopWords的功�?不支持中�?�c�M��使用一个static数组保存?sh��)��(ji��n)ENGLISH_STOP_WORDS, 太常见不index的words
StandardAnalyzer: 用Javacc定义的一套EBNF�Q�严��的语法。有��英文的处理能力同于StopAnalyzer.支持中文采用的方法�ؓ(f��)单字切分。未仔细比较�Q�不敢确定�?/p>
其他的扩�?
ChineseAnalyzer:来自于Lucene的sand box.性能�c�M��于StandardAnalyzer,�~�点是不支持中英文�؜和分�?
CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同.但是在汉语的分词上，不能�q��o(h��)掉标点符��P��即��用二元切�?br /> TjuChineseAnalyzer: http://windshowzbf.bokee.com/3016397.html写的,功能最为强�?TjuChineseAnlyzer的功能相当强�?在中文分词方面由于其调用的�ؓ(f��)ICTCLAS的java接口.所以其在中文方面性能上同与ICTCLAS.其在英文分词上采用了(ji��n)Lucene的StopAnalyzer,可以去除 stopWords,而且可以不区分大��写,�q��o(h��)掉各�c�L��点符�?

例子:
http://www.langtech.org.cn/index.php/uid-5080-action-viewspace-itemid-68, �q�有��单的代码分析

Analyzing "The quick brown fox jumped over the lazy dogs"

WhitespaceAnalyzer:

[The] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs]

SimpleAnalyzer:

[the] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs]

StopAnalyzer:

[quick] [brown] [fox] [jumped] [over] [lazy] [dogs]

StandardAnalyzer:

[quick] [brown] [fox] [jumped] [over] [lazy] [dogs]

Analyzing "XY&Z Corporation - xyz@example.com"

WhitespaceAnalyzer:

[XY&Z] [Corporation] [-] [xyz@example.com]

SimpleAnalyzer:

[xy] [z] [corporation] [xyz] [example] [com]

StopAnalyzer:

[xy] [z] [corporation] [xyz] [example] [com]

StandardAnalyzer:

[xy&z] [corporation] [xyz@example.com]

参考连�?
http://macrochen.blogdriver.com/macrochen/1167942.html
http://macrochen.blogdriver.com/macrochen/1153507.html

http://my.dmresearch.net/bbs/viewthread.php?tid=8318
http://windshowzbf.bokee.com/3016397.html

鹏飞万里 2008-01-26 02:03 发表评论

备忘�Q�unicode & utf-8

鹏飞万里 — Fri, 25 Jan 2008 08:21:00 GMT

推荐
http://gceclub.sun.com.cn/developer/technicalArticles/Intl/Supplementary/index_zh_CN.html
http://www.linuxpk.com/3821.html
=======================================
BMP的解释：(x��)
http://zh.wikipedia.org/w/index.php?title=%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A8%AE%E5%B9%B3%E9%9D%A2&variant=zh-cn
http://zh.wikipedia.org/w/index.php?title=%E8%BE%85%E5%8A%A9%E5%B9%B3%E9%9D%A2&variant=zh-cn#.E7.AC.AC.E4.B8.80.E8.BC.94.E5.8A.A9.E5.B9.B3.E9.9D.A2
1个BMP�?6个辅助plane�Q�需�?1个bits.

======================================
ISO-10646与Unicode关系
http://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

ISO-10646术语
Unicode术语

UCS-2   BMP UTF-16

UCS-4     UTF-32

注意�Q�UTF-16可看成是UCS-2�?a title="爉��" >爉��。在沒有辅助�q�面字符前，UTF-16與UCS-2所指的是同一的意思。但當引入辅助��^面字�W�後�Q�就只稱為UTF-16�?ji��n)，因��?f��)我们�?x��)��?个UTF-16�Q�也��׃��?bytes保存?sh��)��个辅助��^面字�W�。現在若有軟件聲�E�p��己支援UCS-2�R�碼�Q�那其實是暗指它不能支援辅助�q�面字符的委婉語�?br /> ======================================
UTF-8要完整表达unicode需�?bytes�Q�表达BMP需�?bytes�Q�见http://en.wikipedia.org/wiki/UTF-8�Q�注�?#8220;The range D800-DFFF is disallowed by Unicode. The encoding scheme reliably transforms values in that range, but they are not valid scalar values in Unicode. See Table 3-7 in the Unicode 5.0 standard. ”

======================================
BOM Byte Order Mark�Q�在UCS�~�码中有一个叫�?ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码是FEFF。而FFFE在UCS中是不存在的字符�Q�所以不应该出现在实际传输中。UCS规范��我们在传输字节流前，先传输字�W?ZERO WIDTH NO-BREAK SPACE"�?br /> �q�样如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的�?br /> 字符"ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM。UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?ZERO WIDTH NO-BREAK SPACE"(也就是U+FEFF)的UTF-8�~�码是EF BB BF�Q�就�?1101111,10111011,10111111�Q�。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这是UTF-8�~�码�?ji��n)�?br /> Windows��是使用BOM来标记文本文件的�~�码方式的�?br />
除了(ji��n)FEFF�Q�英文wiki http://en.wikipedia.org/wiki/UTF-8�q�解释说明了(ji��n)一些目前不�?x��)出现在utf-8字节��中的byte倹{�?br />
=========================================
Java
http://www.jorendorff.com/articles/unicode/java.html
http://gceclub.sun.com.cn/developer/technicalArticles/Intl/Supplementary/index_zh_CN.html 完美解释java中的unicode。另外提到java中utf-8其实有两�U�格式，分别是标准utf-8和改良utf-8。对于文本输入，Java 2 SDK 提供用于接受“\Uxxxxxx”格式字符串的代码点输入方法，�q�里大写�?#8220;U”表示转义序列包含六个十六�q�制数字�Q�因此允�怋�用增补字�W�。小写的“u”表示转义序列“\uxxxx”的原始格式�?br /> http://dlog.cn/html/diary/showlog.vm?sid=2&cat_id=-1&log_id=557 介绍�?ji��n)String的JDK5新增�Ҏ(gu��)��
http://blog.csdn.net/qinysong/archive/2006/09/05/1179480.aspx �q�着三篇用实例说明，语言比较乱，说的也不��正��，但他用了(ji��n)做试验的java代码有点意思，能帮助思考代码中一些tricky的现象�?br /> http://topic.csdn.net/u/20070928/22/5207088c-c47d-43ed-8416-26f850631cff.html 有一些回�{�，
http://topic.csdn.net/u/20070515/14/57af3319-28de-4851-b4cf-db65b2ead01c.html 有些试验代码�Q��h(hu��n)��g��?br /> http://www.w3china.org/blog/more.asp?name=hongrui&id=24817 有些java实例代码�Q�没�l�看�?br />

另：(x��)
Java 1.0 supports Unicode version 1.1.
Java 1.1 onwards supports Unicode version 2.0.
J2SE 1.4中的字符处理是基于Unicode 3.0标准的�?br /> J2SE v 1.5 supports Unicode 4.0 character set.

而：(x��)
Unicode 3.0�Q?999�q�九(ji��)月；涵蓋�?ji��n)來自ISO 10646-1的十六位元通用字元集（UCS�Q�基本多文種�q�面�Q�Basic Multilingual Plane�Q?

Unicode 3.1�Q?001�q�三月；新增從ISO 10646-2定義的輔助��^面（Supplementary Planes)

所以：(x��)
代码点在U+0000到U+FFFF之间的就用\u0000到\uffff表示
U+10000到U+1FFFF之间的用 \ud800到\udbff中的作�ؓ(f��)�W�一个单�? 用\udc00到\udfff作�ؓ(f��)�W�二单元,�l�合��h��表示
char�q�个概念��是指\u0000到\uffff,�q�是占两个字�?
其余的用code point�q�个概念
JDK 1.5 以上支持 Unicode 4.0�Q�也��是 Unicode 的范围是 U+0000～U+10FFFF�Q?
��过 U+FFFF 的字�W�采用代码点�Q�也��是 int �c�d��的数据）(j��)来表�C�，具体的可�?
参考一下下面这个链接的文章《Java �q�_��中的增补字符》，�Ҏ(gu��)��作了(ji��n)很详�l�的�?
�l��?http://gceclub.sun.com.cn/developer/technicalArticles/Intl/Supplementary/index_zh_CN.html

================================
http://m.tkk7.com/tim-wu/archive/2007/09/12/144550.html

================================

U-00000000 - U-0000007F: 0xxxxxxx

U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

但目前ISO和Unicode�l�织都不�?x��)规�?0FFFF以上的字�W?br />

代碼��圍
十六進制標量�?scalar value
二進制 UTF-8
二進制 / 十六進制 �a�釋

000000 - 00007F
128個代��?/small> 00000000 00000000 0zzzzzzz 0zzzzzzz(00-7F) ASCII�{�值範圍，位元�i�由雉��?/td>

七個z 七個z

000080 - 0007FF
1920個代��?/small> 00000000 00000yyy yyzzzzzz 110yyyyy(C2-DF) 10zzzzzz(80-BF) �W�一�?a title="字节" >位元�i?/a>�?10開始�Q�接著的位元�i?/a>�?0開始

三個y�Q�二個y�Q�六個z 五個y�Q�六個z

000800 - 00FFFF
63488個代��?/small> 00000000 xxxxyyyy yyzzzzzz 1110xxxx(E0-EF) 10yyyyyy 10zzzzzz �W�一�?a title="字节" >位元�i?/a>�?110開始�Q�接著的位元�i?/a>�?0開始

四個x�Q�四個y�Q�二個y�Q�六個z 四個x�Q�六個y�Q�六個z

010000 - 10FFFF
1048576個代��?/small> 000wwwxx xxxxyyyy yyzzzzzz 11110www(F0-F4) 10xxxxxx 10yyyyyy 10zzzzzz �?1110開始�Q�接著的位元�i?/a>�?0開始

三個w�Q�二個x�Q�四個x�Q�四個y�Q�二個y�Q�六個z 三個w�Q�六個x�Q�六個y�Q�六個z

================================
参考：(x��)http://blog.csdn.net/qinysong/archive/2006/09/05/1179480.aspx�Q�但该文对unicode版本说明有误�Q�说明见�?br />
在大�U?1993 �q�之后开发的大多数现代编�E�语�a�都有一个特别的数据�c�d��, 叫做 Unicode/ISO 10646-1 字符. �?Ada95 中叫 Wide_Character, �?Java 中叫 char.

ISO C 也详�l�说明了(ji��n)处理多字节编码和宽字�W?(wide characters) 的机�? 1994 �q?9 �?Amendment 1 to ISO C 发表时又加入�?ji��n)更�? �q�些机制主要是�ؓ(f��)各类东亚�~�码而设计的, 它们比处�?UCS 所需的要健壮得多. UTF-8 �?ISO C 标准调用多字节字�W�串的编码的一个例�? wchar_t �c�d��可以用来存放 Unicode 字符.

鹏飞万里 2008-01-25 16:21 发表评论

鹏飞万里 — Thu, 24 Jan 2008 03:33:00 GMT

代码为QueryParser.jj�Q�语法�ؓ(f��)JavaCC实现的LL()�Q?br /> 完整文��Q?a >http://lucene.apache.org/java/2_0_0/queryparsersyntax.html

和正则一��P��(x��)
?表示0个或1�?br /> +表示一个或多个
*表示0个或多个

以下是Token部分�Q?br />

_NUM_CHAR::=["0"-"9"] //数字
_ESCAPED_CHAR::= "\\" [ "\\", "+", "-", "!", "(", ")", ":", "^", "[", "]", "\"", "{", "}", "~", "*", "?" ] > //�Ҏ(gu��)��字符�Q?/span>
_TERM_START_CHAR ::=( ~[ " ", "\t", "\n", "\r", "+", "-", "!", "(", ")", ":", "^","[", "]", "\"", "{", "}", "~", "*", "?" ] //TERM的�v始字�W�，除了(ji��n)列出的其它字�W�都可以
_TERM_CHAR::=( <_TERM_START_CHAR> | <_ESCAPED_CHAR> | "-" | "+" ) > //TERM可��用字�W?/span>
_WHITESPACE::= ( " " | "\t" | "\n" | "\r") //�I�格和回车，

<DEFAULT> TOKEN:
AND::=("AND" | "&&")
OR::=("OR" | "||")
NOT::=("NOT" | "!")
PLUS::="+"
MINUS::="-"
LPAREN::="("
RPAREN::=")"
COLON::=":"
STAR::="*"
CARAT::="^" //后接Boost�Q�原�?lt;CARAT:     "^" > : Boost�Q�后面Boost说明什么没明白
QUOTED::="\"" (~["\""] | "\\\"")+ "\"" // 表示�?包�v来的字符�?字符"开始，中间�׃��?的符��h��者连着的这两个�W�号\"�l�成�Q�字�W?�l�束�Q?/span>
TERM::=<_TERM_START_CHAR> (<_TERM_CHAR>)*
FUZZY_SLOP::="~" ( (<_NUM_CHAR>)+ ( "." (<_NUM_CHAR>)+ )? )? //字符~开始，而后是数�?Lucene支持模糊查询�Q�例�?roam~"�?roam~0.8"�Q�The value is between 0 and 1�Q�算法�ؓ(f��)the Levenshtein Distance, or Edit Distance algorithm
PREFIXTERM::=(<_TERM_START_CHAR> | "*") (<_TERM_CHAR>)* "*" > //模糊查找�Q�表�C�Z��某某开头的查询, 字符表示�?something*"�Q�前�~�允许模糊�W�号*�Q�中间可有字�W�也可没有， �l�尾必须�?
WILDTERM::=(<_TERM_START_CHAR> | [ "*", "?" ]) (<_TERM_CHAR> | ( [ "*", "?" ] ))* > //�c�M��上面�Q�但同时支持?字符�Q�结��֏�以是字符也可以是* ?。��用[]表示or关系�Ӟ��不需要��用|�Q�只�?号分割即�?/span>
RANGEIN_START::="[" //在RangeQuery中，[或{表示�?ji��n)是否包含边界条件本�w? 用字�W�表�C�Zؓ(f��)"[begin TO end]" 或�?{begin TO end}",后接RangeIn
RANGEEX_START::="{" //同上�Q�后接RangeEx

<Boost> TOKEN:
NUMBER::=(<_NUM_CHAR>)+ ( "." (<_NUM_CHAR>)+ )? //后接DEFAULT�Q?nbsp;整数或小�?/span>

<RangeIn> TOKEN:
RANGEIN_TO::="TO"
RANGEIN_END::="]" //后接DEFAULT, RangIn的结�?/span>
RANGEIN_QUOTED::= "\"" (~["\""] | "\\\"")+ "\"" //同上�q�QUOTED�Q�表�C�用"包�v来的字符�?
RANGEIN_GOOP::= (~[ " ", "]" ])+ //1个或多个不是�I�格和]的符�?�q�样��p��提取出[]中的内容

<RangeEx> TOKEN :
RANGEEX_TO::="TO">
RANGEEX_END::="}" //后接DEFAULT, RangeEx的结�?/span>
RANGEEX_QUOTED::="\"" (~["\""] | "\\\"")+ "\"" //同上�q�QUOTED�Q�表�C�用"包�v来的字符�?
RANGEEX_GOOP::=(~[ " ", "}" ])+ //1个或多个不是�I�格和]的符�?�q�样��p��提取出[]中的内容

<DEFAULT, RangeIn, RangeEx> SKIP : {
  < <_WHITESPACE>>
} //所有空格和回�R被忽�?br />

以下��析部�?br />

Conjunction::=[ <AND> { ret = CONJ_AND; } | <OR>  { ret = CONJ_OR; }  ] //�q�接
Modifiers::=[ <PLUS> { ret = MOD_REQ; } | <MINUS> { ret = MOD_NOT; } | <NOT> { ret = MOD_NOT; } ] //+ - !�W�号
Query::=Modifiers Clause (Conjunction Modifiers Clause)*
Clause::=[(<TERM> <COLON>|<STAR> <COLON>)] //btw:代码中LOOKAHEAD[2]表示使用LL(2)
         (Term|<LPAREN> Query <RPAREN> (<CARAT> <NUMBER>)?)  //子句. ???????�q�儿语法有点,仿佛(j��ng)允许 *:(*:dog)�q�样的语�?很奇�?/span>
Term::=(
    (<TERM>|<STAR>|<PREFIXTERM>|<WILDTERM>|<NUMBER>) [<FUZZY_SLOP>] [<CARAT><NUMBER>[<FUZZY_SLOP>]}
    | ( <RANGEIN_START> (<RANGEIN_GOOP>|<RANGEIN_QUOTED>) [ <RANGEIN_TO> ] (<RANGEIN_GOOP>|<RANGEIN_QUOTED> <RANGEIN_END> ) [ <CARAT> boost=<NUMBER> ] //�q�儿看出range必须同时有两�?不能只有有一�?nbsp;
    | ( <RANGEEX_START> <RANGEEX_GOOP>|<RANGEEX_QUOTED> [ <RANGEEX_TO> ] <RANGEEX_GOOP>|<RANGEEX_QUOTED> <RANGEEX_END> )[ <CARAT> boost=<NUMBER> ] //在RangeQuery中，[或{表示�?ji��n)是否包含边界条件本�w? 用字�W�表�C�Zؓ(f��)"[begin TO end]" 或�?{begin TO end}",后接RangeIn
    | <QUOTED> [ <FUZZY_SLOP> ] [ <CARAT> boost=<NUMBER> ] //�?"包含的内�?/span>

btw: 猜测: javacc�?如果使用[],则允许出�?�ơ或1��?br />

鹏飞万里 2008-01-24 11:33 发表评论

鹏飞万里 — Wed, 09 Jan 2008 09:32:00 GMT

今天��M��(ji��n)lucent中的PriorityQueue.java, 一个很巧妙的复杂度为log(n)的排序堆�?

始终��保数组A[1...n]�?
A[i] 很容易推论出A[1]一定是最��数�? �q�且每次put()和pop()臛_��U�d��log(n)个数�?br />
真是好久没接触算法了(ji��n):)

鹏飞万里 2008-01-09 17:32 发表评论

U-00000000 - U-0000007F:	0xxxxxxx
U-00000080 - U-000007FF:	110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF:	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF:	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF:	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF:	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

代碼��圍十六進制	標量�?scalar value 二進制	UTF-8 二進制 / 十六進制	�a�釋
000000 - 00007F 128個代��?/small>	00000000 00000000 0zzzzzzz	0zzzzzzz(00-7F)	ASCII�{�值範圍，位元�i�由雉��?/td>
000000 - 00007F 128個代��?/small>	七個z	七個z	ASCII�{�值範圍，位元�i�由雉��?/td>
000080 - 0007FF 1920個代��?/small>	00000000 00000yyy yyzzzzzz	110yyyyy(C2-DF) 10zzzzzz(80-BF)	�W�一�?a title="字节" >位元�i?/a>�?10開始�Q�接著的位元�i?/a>�?0開始
000080 - 0007FF 1920個代��?/small>	三個y�Q�二個y�Q�六個z	五個y�Q�六個z	�W�一�?a title="字节" >位元�i?/a>�?10開始�Q�接著的位元�i?/a>�?0開始
000800 - 00FFFF 63488個代��?/small>	00000000 xxxxyyyy yyzzzzzz	1110xxxx(E0-EF) 10yyyyyy 10zzzzzz	�W�一�?a title="字节" >位元�i?/a>�?110開始�Q�接著的位元�i?/a>�?0開始
000800 - 00FFFF 63488個代��?/small>	四個x�Q�四個y�Q�二個y�Q�六個z	四個x�Q�六個y�Q�六個z	�W�一�?a title="字节" >位元�i?/a>�?110開始�Q�接著的位元�i?/a>�?0開始
010000 - 10FFFF 1048576個代��?/small>	000wwwxx xxxxyyyy yyzzzzzz	11110www(F0-F4) 10xxxxxx 10yyyyyy 10zzzzzz	�?1110開始�Q�接著的位元�i?/a>�?0開始
010000 - 10FFFF 1048576個代��?/small>	三個w�Q�二個x�Q�四個x�Q�四個y�Q�二個y�Q�六個z	三個w�Q�六個x�Q�六個y�Q�六個z	�?1110開始�Q�接著的位元�i?/a>�?0開始

亚洲国产精品美女,亚洲色偷偷综合亚洲AVYP,午夜亚洲乱码伦小说区69堂

Lucene的烦(ch��)引结构图

Lucene和GCJ

备忘�Q�lucene中的ranking���法

Lucene如何控制segments的数�?

备忘�Q�lucene的一些enum�c�d��

备忘:lucene的几�U�常用Analyzer

备忘�Q�unicode & utf-8

备忘�Q�lucene中的ranking��法