久久国产亚洲电影天堂,一本色道久久88综合亚洲精品高清,最新精品亚洲成a人在线观看

�W�笨 — Sun, 10 Feb 2008 07:44:00 GMT

一个通用的文仉��|�框�?/h1>

配置需求说�?/h2> 在工作中,��目需要实现多�U�程序配�|�方�?每种�E�序配置均有各自的文件复�?变量替换(替换文本文�g中的变量占位�W?,修改脚本文�g的需�? 为减��重复代�?��化配�|�实�?我们实现了此配置框架.需求片断示�?

复制文�g到某�?
创徏/append 某个 properties/txt 文本文�g
修改脚本文�g,插入一�D�|��本到脚本文�g某处
通过JMX/JNDI�q�接到远�E�应用服务器, 用Java code修改应用服务器的配置.

需求分�?/h2> 从上�q�需求来�?�W�一印象��是用ANT或类ANT XML文�g��可以很好的满��上述需�? 但是�q�需要做下面增强才会好用:

配置�q�程需要有�c�M��于事务的机制,以保证多处改动的一致�?
各种配置�q�程之间有许多相同之�?为减��重�?可以考虑引入公共配置片断文�g.
�׃��配置�q�程相对固定, ANT BUILD XML文�g的多个target以及依赖关系��查就不需要了,但是需要更加灵�zȝ��条�g判断机制来控制单个配�|�动作和变量赋�?

实现��?/h2> �Ҏ��上述分析,��目最�l�的XML配置文�g格式如下:


        ResourceBundle Message Class




















                    class="CustomizedActionClass"
            index="1"
        />
                    file="${Source File Variable}"
            dest="${Dest file Variable}"
            index="60"
            reason="Error Reason Key"
            />
                    file="${File to Write}"
            index="20"
            reason="Error Reason Key"
        > ]]>
                    file="${File to be expanded}"
            index="30"
        />


与ANT BUILD XML相类似的,分�ؓ变量定义区域和配�|�动作定义区�? 为实现方�?变量可以被覆�?变量赋��D��句可以带条�g.
具体配置�q�程由多个action-***规定,配置框架已经预提供标准动�? action-copy/action-write/action-expand �{�等, action-invoke可以插入自定义Java代码.

��Z��解决问题1,配置框架实现了一套类��g��两阶�D�|��交的机制. 每个Action实现�c�需要实��C��个方�?

Action.performAction(): 实现正常配置动作,如果��p�|则返回错误码.
Action.performCompensation(): 实现回滚动作,负责��配�|�对�?如文件内�?回滚��C��改前的状�?
Action.performComplete(): 实现正常配置完成动作, 负责释放配置�q�程占用的��时资�?

配置框架依次�Ҏ��个要执行的动作调用performAction动作,如果当前Action�q�回��p�|错误�?则对已经成功执行的Action反向依次调用 performCompensation动作,执行回滚操作,从而保证配�|�过�E�的一致�? 如果全部成功,则依�ơ调用performComplete操作,释放占用的��时资�?如下�?

��决问�?,我们为每个action指定了一个index,用它规定执行��序,配置框架从公共配�|�文件和�U�有配置文�g中合�q��ƈ排序所有的配置 action, 通过预先分配common action和private action的index范围, 每个单独的配�|�过�E�可以完全抽出重复配�|�动�?

��决问�?, 每个action,每个变量定义(property 标记) 都可以有自己的condition 定义. 如此一�?配置文�g的写法更�c�M��于程序的执行�q�程,从开发角度也更加自然.

其它�Ҏ�?脚本文�g自动分析和插入配�|�行

应用服务器的启动脚本是用户可定制�?我们无法预见文�g格式. ��册��个问�?我们采用了如下方�?

对脚本进行语法分�?扑և�脚本的Java启动�?或Windows Service讄��?,�q�而找出可用的shell变量和插入位�|? 期望�q�种方式能够解决大多数用戯��定义脚本.
对于复杂或分析条件不充分的脚�?如变量位于别的文�?, 用户需要在合适位�|�插入一行有指定格式和参数的注释�?�U�C��为anchor),配置框架会自动在该行后插入配�|�代�? �q�种方式的主要的问题是用��L��解困�?��目�l�支持的工作量大;不过�q�也是没有办法的办法�?

�ȝ��

本文介绍了一�U�多文�g操作配置框架的思�\,�q�具体解释类事务的配�|�动作实现过�E? 该配�|�框架在��目实践中达��C��预期目的,收到不错的效�?

�W�笨 2008-02-10 15:44 发表评论

中文全文��索的实现以及一些经�?Java)

�W�笨 — Mon, 30 Jul 2007 09:55:00 GMT

中文全文��索的实现以及一些经�?Java)

最�q�在��目中面临中文全文检索的需求，关键需求如下：

1 支持中文、英文字词的全文��索，待检索文本是古文�a�文�?br>2 全文��索表辑ּ�支持�Q?AND,OR,NOT,NEAR,BEFORE �q�算�W�，支持()�?br>3 速度要求�Q?00M文本�Q�要求在2-5�U�内能够��索完毕�?br>

��试Lucene以及攑ּ�原因�Q?/h3> 在尝试Lucene和不同的中文Analyzer后，�l�告攑ּ��?br>原因如下�Q?br>�׃��待检索文本是古文�Q�中文分词技术无法派上用场。在��分隔存储每个汉字后�Q�发��C��Lucene中检索到的文本远�q�少于关键字实际匚w��的文本，�q�一问题对于较长的检索关键字��其明显�?br>因�ؓ对于��索准��程度要求很高，故此攑ּ��Q�但是Lucene出的�q�个问题的原因尚不清楚，希望能够有�h提出解答�?br>

自行实现中文全文��索原理以及方法：

1 构徏�q�程�Q�忽略标点符��P��自行计算每个汉字在每个文本文件中的偏�U�量�Q��ƈ保存�?br>2 ��索过�E�，定位每个汉字的偏�U�量�Q�如果检索表辑ּ�中每个汉字的预期偏移量与实际偏移量吻合，则匹配成功�?br>3 采用 MappedByteBuffer 加快��索速度�Q�采用二分查扑֊�快偏�U�量匚w��速度�Q?个左右的关键字复合检索能够在1�U�内完成匚w��Q�要求操作系�l�有��_��大的�~�存�Q��?br>

目前实现的一些局限和优势�Q?/h3> 0 中文��索速度��_��Q�准��度比Lucene高（如果有高手能够解册��个问题，我会很高兴的废弃掉这些类的）
1 合适于中文�Q�不适用英文文本
2 全文��索烦引文件与原始文本文�g的大��大�U��ؓ2:3-3:4之间�Q?00M大小�Q�比Lucene大约�?0M�?br>3 索引文�g的构建时间长�Q?00M大约需�?��时�Q�同时由于如果�Q何文本文件更斎ͼ�都需要重新构建烦引文�Ӟ��
因此不合适要�l�常变化的文本烦引�?br>

全文��索代码示�?TestFullTextQuery.java)�Q?br>File storeDir = new File("C:\\temp\\fulltext\\index");
StoreSearcher searcher = new StoreSearcher(storeDir);
String str = "�?�?& 阉K��"; //同时出现 "�?�? �?"阉K��"�Q??代表��L��字符
searcher.queryBegin(str, true);
while(true){
    StoreSearcherResult ssr = searcher.getNextQueryResult();
    if ( ssr == null ){
        break;
    }
    System.out.println("ID "+ssr.docId+":"+ssr.matchedCount);
}
searcher.queryEnd();
searcher.close();

�q�行�l�果
ID T01n0001.TXT:320
ID T01n0002.TXT:3
ID T01n0004.TXT:2
ID T01n0005.TXT:202
ID T01n0006.TXT:131
....

附：全文��索表辑ּ�举例

关键字中间可以出�?�Q�表明匹配�Q意字�W��?br>
�q�算�W�名�U�ͼ��q�算�W�字�W?br>AND:&
OR:,
BEFORE:*
NEAR:+
NOT:-

表达式�D例：
(KEY1 KEY2) & (NOT KEY3)
KEY1 KEY2 (关键字之间无�q�算�W�假设�ؓAND)

附：全文��索文件格式信�?br>
DocInfoStore(文档信息)
--HEAD--
DocCount:Integer                    文档数目
--DOC HEAD(PER DOC)--
DocSeq:    Integer                        文档��序��P��内部使用
DocId:     Char[128]                    文档唯一ID�Q�字�W�串格式
DocSepOfs: Integer                文档分隔�W�数�l�的Ofs
--DOC SEP OFS(PER DOC)--
DocOfs:    ArrayOfInteger        文档分隔数组

WordInfoStore(每个汉字信息)
--HEAD--
WordCount:Integer                    汉字�?br>--WORD IDX(Per Word)--
WordChar:Integer                    汉字的Unicode�?br>WordInfoOfs:Integer                汉字信息在文件中的偏�U�量
WordInfoSize:Integer            汉字信息大小
--WORD INFO(Per Word)--
DocCount:                                    汉字出现的文档数
DocSeq(Per Doc):                每个文档的顺序号
WordInDocs:ArrayOfInteger 每个文档中出现的汉字的偏�U�L��l�，从小到大排列

源文件及CLASS下蝲地址�Q?br>http://m.tkk7.com/Files/zhugf000/foreader2_ftsearch.zip

�W�笨 2007-07-30 17:55 发表评论

�W�笨 — Mon, 06 Feb 2006 06:21:00 GMT

�W�笨 2006-02-06 14:21 发表评论

�W�笨 — Mon, 12 Dec 2005 01:16:00 GMT

Java 正则表达式的��译文档�Q�附带有中文部分扩展说明�Q�源代码�?a href="/Files/zhugf000/fodian_common.rar">�q�里

正则表达式说�?

匚w��模式

匚w��模式指得是正则表辑ּ�引擎��以何种模式匚w��字符丌Ӏ?br />

模式名称	启用�Q�禁�?br />	�~�省启用	说明
UNIX_LINES	(?d)启用�Q??-d)��用	�?br />	启用Unix行模式�?br />在此模式下，只有 `'\n'`被认为是行结束符。它会媄�?tt>., `^`, �?`$` 的行为�?br />
CASE_INSENSITIVE	(?i)启用�Q??-i)��用	�?br />	启用忽略大小写模式�?br />�~�省�Ӟ��忽略大小写模式只会媄�?ASCII字符的匹配�?而Unicode范围的忽略大��写匚w��需要通过 UNICODE_CASE 标志与本标志联合使用�?br />启用此模式会影响匚w��性能�?br />
COMMENTS	(?x)启用�Q??-x)��用	�?br />	允许�I�格和注释出现在正则表达式中�?br />在此模式下，�I�格被忽略，�?开始的单行注释被忽略�?
MULTILINE	(?m)启用�Q??-m)��用	�?br />	启用多行模式�?br />In multiline mode the expressions `^` and `$` match just after or just before, respectively, a line terminator or the end of the input sequence. By default these expressions only match at the beginning and the end of the entire input sequence.
DOTALL	(?s)启用�Q??-s)��用	�?br />	�?可以匚w��行结束符�?br />在此模式下，元字�W?tt>.可以匚w��行结束符。缺省不允许如此匚w��?br />
UNICODE_CASE	(?u)启用�Q??-u)��用	�?br />	Enables Unicode-aware case folding. When this flag is specified then case-insensitive matching, when enabled by the `CASE_INSENSITIVE` flag, is done in a manner consistent with the Unicode Standard. By default, case-insensitive matching assumes that only characters in the US-ASCII charset are being matched. 启用此模式会影响性能�?br />
CANON_EQ	(?c)启用�Q??-c)��用	�?br />	Enables canonical equivalence. When this flag is specified then two characters will be considered to match if, and only if, their full canonical decompositions match. The expression `"a\u030A"`, for example, will match the string `"?"` when this flag is specified. By default, matching does not take canonical equivalence into account. 启用此模式会影响性能�?br />

字符子集

字符子集可以含有别的字符子集�Q��ƈ且可以通过联合操作�W�（�~�省�Q�和交集操作�W�（&&�Q�实现组合。联合操作符表示某个子集匚w��它的子子集所匚w��的�Q意字�W�。交集操作符表明某个字符子集只匹配它的子子集都匹配的字符�?br />字符子集所能够有的操作�W�的优先�U�如下，从高��C��Q?br />

转义�W�\x
成组�W?[...]
区间�W?a-z
联合�W?[a-e][i-u]
交集�W?[a-z&&[aeiou]]

注意�Q�在字符子集[]内部的语法根本不同于正则表达式其它部分中的语法。例如，在字�W�子集内部，正则表达�?. 失去了它原有的含义，而是成了一个匹�?的元字符�?

行结束符

行结束符是一个或两个字符序列�Q�用以表明输入字�W�序列中一行的�l�束。下面的字符被认为是行结束符�Q?br />

一个换行符('\n')�?
一个回车符加上一个换行符("\r\n")�?
一个单独的回�R�W?'\r')�?
代表下一行的字符('\u0085')�?
行分隔符('\u2028')�Q�Unicode中被定义�?
一个分�D늬�('\u2029)�Q�Unicode中被定义�?/li>

如果 UNIX_LINES 模式被启用，则只有换行符被认为是行结束符�?br />如果 MULTILINE 模式被启用，�?br />

分组和引�?/h3>字符分组以它们的左括��L��出现��序来排序。例如在表达�?(A)(B(C)))�Q�有四个分组�Q?br />
((A)(B(C)))
(A)
(B(C))
(C)
�W?�l�永�q�表�C��辑ּ�本��n�?br />分组采用�q�样的命名方式，是因为，在一�ơ匹配过�E�中�Q�正则表辑ּ�会被匚w��多次。以前的匚w��子序列有可能在将来被使用�Q�或者在匚w��l�束�Ӟ��E�序有可能需要重新获得所有匹配的子字�W�序列�?br />对于正则表达式中的某个分�l�而言�Q�永�q�只保留最后匹配的字符序列。如果对某个分组匚w��试��p�|�Q�则会保留上�ơ匹配成功的字符序列。例如，对于正则表达�?a(b)?)+而言�Q�字�W�序�?aba"�Q�将会让分组2匚w��的字�W�序列�ؓ"b"�?br />�??开始的分组�Q�将不会计入分组数目�Q�也不会被后�l�匹配所引用�?br />

Unicode支持

本正则表辑ּ�匚w��引擎的实现遵循了�?a >Unicode技术报告：Unicode正则表达式指�?/a>》，实现了该指南的第二层所需的功能，但是在细微处有一些简单语法修攏V�?br />Unicode�?Block)和分�c?Category)通过\p和\P通配苻表�C�。\p{prop}匚w��含有prop的输入序列，而\P{prop}匚w��不含�?b>prop的输入序列。Unicode块通过前缀In表示�Q�如\p{InMongolian}。Unicode分类通过可选的前缀Is表示�Q�因此\p{L}和\p{IsL}都代表Unicode分类 letters。Unicode块和分类都可以在正则表达式子集外部和内部使用�?br />目前支持的Unicode块和分类是�?a >Unicode标准�Q�第三版》中所指定的块和分�c�R�?Unicode块名�U�在�?a >Unicode 字符数据�?/a>》的�W?4章被定义�Q�文件名�U�叫Blocks-3.txt�Q�但是名�U�C��的空��D��L��了。例�?Basic Latin"成了"BasicLatin"。无论是标准化的�q�是非标准化的分�c�，都在该标准的�W?8��늚��W?-5表中被全部定义�?br />

与Perl 5正则表达式语法对�?

[TBD]

正则表达式参�?/h2>

字符

正则表达式字�W�串	匚w��的字�W�串
X	字符X�Q�包�?CJK ExtB 区汉�?br />
\\	反斜杠\
\0n	八进�?n代表的字�W?0<=n<=7)
\0nn	八进�?nn代表的字�W?0<=n<=7)
\0mnn	八进�?*mnn*代表的字�W?0<=m<=3,0<=n<=7)
\xhh	十六�q�制 0xhh所代表的字�W?br />
\uhhhh	十六�q�制 0xhhhh所代表的字�W��?font color="#ff0000">注意�Q�目前尚不支持CJK ExtB区汉字�?br />
\t	制表�W?'\u0009')
\n	换行('\u000A')
\r	回�R('\u000D')
\a	响铃�W?'\u0007')
\e	取消�W�Escape('\001B')
\cx	x所代表的控制字�W?br />

逻辑操作�W?/h3>
正则表达式字�W�串
匚w��的字�W�串
XY
X后面跟随Y
X|Y
X或�?i>Y
(X)
X作�ؓ分组表达�?br />

向后引用

正则表达式字�W�串	匚w��的字�W�串
\n	�W?b>n个匹配的分组

边界元字�W?/h3>
边界字符
匚w��的字�W�串
^
行首
$
行末
\b 字符边界
\B
非字�W�边�?br />
\A
输入��的开�?br />
\G
上次匚w��的结束处
\Z
输入��的�l�束�Q�或者是最后一个行�l�束�W�，参见行结束符�?br />
\z
输入��的�l�束

重复指示�W?/h3>
正则表达式字�W�串
匚w��的字�W�串
X?
X重复一�ơ，或者不重复
X*
X重复0�ơ或多次
X+
X重复1�ơ或多次
X{n}
X重复n�ơ，不多也不��?br />
X{n,}
X臛_��重复n��?br />
X{n,m}
X臛_��重复n�ơ，臛_��重复m�ơ�?br />
注：X{n,m}�?�?�?方式可以联合使用�?br />

字符子集

正则表达式字�W�串子集	匚w��的字�W�串	�l�合方式
[abc]	字符a,b或c�Q�包�?CJK ExtB 区汉�?br />	��单子�?br />
[^abc]	��L��非a,b或c的字�W��?br />	排除
[a-zA-Z]	从a到z�Q�或者A到Z�Q�包含a,z,A,Z�?br />	区间
[a-d[m-p]]	从a到d�Q�或者m到p�Q�等于[a-dm-p]�?br />	联合
[a-z&&[def]]	d,e或者f�?br />	交集
[a-z&&[^bc]]	从a到z�Q�除了b和c�Q�等于[ad-z]	扣除
[a-z&&[^m-p]]	从a到z�Q��ƈ且不包括从m到p�Q�等于[a-lq-z]	扣除

预定义子集（元字�W�）

边界字符	匚w��的字�W�串
.	��L��字符�Q�可能匹配行�l�束�W��?br />
\d	数字[0-9]
\D	非数字[^0-9]
\s	�I�白�W�[ \t\n\x0B\f\r]
\S	非空白符[^\s]
\w	单词�W�，包含有字母和数字[a-zA-Z_0-9]
\W	非单词符�Q�不包含有字母和数字�?br />

扩展子集�Q�元字符�Q?/h3>
正则表达式字�W�串
匚w��的字�W�串

扩展中文子集�Q�元字符�Q?/h3>
名称
块名�U�ͼ�\p{InXXX}�Q?br /> ��化通配�W?br /> 标准Unicode块，或者汉字列�?br />
��L��双字节字�W�（汉字或全角符��P��
\p{InQuqnJiao}
\E
��L��由GBK表示的汉字，不包括GB18030扩展部分�Q?br />以及CJK ExtB区的汉字�?br />
��L��单字节字�W?br /> \p{InFQuanJiao}
\~E
��L��单字节字�W��?br />
��L��全角ASCII字符
\p{InQJAscii}
\H
标准HalfwidthandFullwidthForms�?br />
��L��收录在BIG5码集中的双字节字�W?br /> \p{InBig5}
\I
Big5可编码双字节字符
匚w��未收录在BIG5码集中的双字节字�W?/td> \p{InFBig5}
\~I
非Big5可编码双字节字符
匚w��L��汉字(不包括符�?
\p{InHanziOrCJKExtB}
\X
��L��汉字�Q�包括GB18030扩展部分�?br />
匚w��L��汉字(不包括符�?
\p{InHanzi}
\M
��L��汉字�Q�不包括GB18030扩展部分�?br />
匚w��非汉字的双字节字�W?br /> \p{InFHanzi}
\~M
��L��非汉字的双字节字�W�，
包括GB18030扩展部分�?br />
地支字符
\p{InDiZhi}
\U
子丑寅卯辰埩午未申酉戌亥
匚w��收录在GB码集中的双字节字�W?br /> \p{InGB}
\g
收录在GB码集中的双字节字�W�，
不包括GB18030扩展部分�?br />
匚w��非收录在GB码集中的双字节字�W?br /> \p{InFGB}
\~g
未收录在GB码集中的双字节字�W�，
不包括GB18030扩展部分�?br />
匚w��收录在GBK码集中的双字节字�W?br /> \p{InGBK}
\h
收录在GBK码集中的双字节字�W�，
不包括GB18030扩展部分�?br />
匚w��非收录在GBK码集中的双字节字�W?br /> \p{InFGBK}
\~h
未收录在GBK码集中的双字节字�W�，
不包括GB18030扩展部分�?br />
大写希腊字母
\p{InDaXila}
\K
ΑΒΓΔΕΖΗΘΙΚΛΜΝ
ΞΟΠΡΣ�f�`Φ��ΨΩ
日文片假�?br /> \p{InPianJia}
\j
标准Katakana�?br />
日文�q�_��?br /> \p{InPingJia}
\J
标准Hiragana�?br />
��写希腊字母
\p{InXiaoXila}
\k
��β��δεζηθικλμ�^
ξοπρστυφχψω
数学�W�号
\p{InMathe}
\m
�u×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒�?br />∫∮≡≌≈∽∝≠≮≯≤≥∞∵�?br />
中文数字
\p{InCnDigit}
\i
〇一二三四五六七八九十百千万亿兆吉京
大写中文数字
\p{InDaCnDigit}
\N
零壹贰叁肆伍陆柒捌玖拾䘪仟萬亿兆吉京
全角标点�W�号
\p{InQJBiaoDian}
\o
、。·ˉˇ¨〃々—～‖…‘’“”〔�?br />〈〉《》「」『』〖〗【】！�Q�＇�Q�）�Q?br />�Q�．�Q�；�Q�＝�Q�？�Q�］｛｜｝｀�H�﹊�H�﹌�H�﹎�H�﹐�H�﹒�H�﹕�H�﹗�H�﹚
�H�﹜�H�﹞�|�︶�|��ؓ�|�﹀�|��D�H�﹂�H�﹄
�|��Ӈ�|�P��|��x�|?br />
��写俄文字母
\p{InXiaoEWen}
\l
аб�{�C��еёжзий�a�xмн
о�\рстуфхцчшщъыьэюя
大写俄文字母
\p{InDaEWen}
\R
АБВГДЕЁЖЗИЙКЛМНО
ПРСТУФ�[ЦЧШЩЪЫЬ�f��y
中文序号
\p{InCnSN}
\q
ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ
ⅰⅱ⅜y��ⅴⅵⅶⅷⅸⅹ
再加上Unicode标准EnclosedAlphanumerics�?br />
天干字符
\p{InTianGan}
\T
甲乙丙丁戊己庚辛壬癸
竖排标点�W�号
\p{InSPBiaoDian}
\V
�|�︶�|��ؓ�|�﹀�|��D�H�﹂�H�﹄�|��Ӈ�|�P��|��x�|?br />
拼音字符
\p{InPinyin}
\y
ā֙ǎàēéě؈ī�Tǐìō�Qǒòūúǔùǖǘǚǜü�^ɑńň��
GBK -> 0xA8A1- 0xA8C0
只是Unicode标准LatinExtended-A块的一部分�?br />
注音字符
\p{InZhuyin}
\Y
标准Bopomofo�?br />
制表字符
\p{InZhiBiao}
\C
标准BoxDrawing块�?br />�l�检查发�?textpro 的算法含有部分非�?br />准Unicode制表�W�：“∟∣≒≦≧⊎앐”�?br />

POSIX字符子集�Q�只适用于ASCII�Q?/h3>
正则表达式字�W�串
匚w��的字�W�串
\p{Lower}
��写字母[a-z]
\p{Upper}
大写字母[A-Z]
\p{ASCII}
所有的ASCII字符[\x00-\x7F]
\p{Alpha}
大小写字母[\p{Lower}\p{Upper}]
\p{Digit}
数字[0-9]
\p{Alnum}
字母数字�W�，包含大小写字母和数字[\p{Alpha}\p{Digit}]
\p{Punct}
标点�W�号�Q?"#$%&'()*+,-./:;<=>?@[\]^_`{|}~之一�?br />
\p{Graph}
可显�C�字�W�[\p{Alnum}\p{Punct}]
\p{Print}
可打印字�W�[\p{Graph}]
\p{Blank}
�I�格或者制表符[ \t]
\p{Cntrl}
控制字符[\x00-\x1F\x7F
\p{XDigit}
十六�q�制数字[0-9a-fA-F]
\p{Space}
�I�白�W�[ \t\n\x0B\f\r]

Unicode块和分类

�?br />	中文名称�Q�摘自Word XP�Q?br />	代码区域
BasicLatin	基本拉丁�?br />	\u0000-\u007F
Latin-1Supplement	拉丁�?1	\u0080-\u00FF
LatinExtended-A	拉丁语扩�?A	\u0100-\u017F
LatinExtended-Bound	拉丁语扩�?B	\u0180-\u024F
IPAExtensions	国际��x��扩充	\u0250-\u02AF
SpacingModifierLetters	�q�格的修饰字�W?br />	\u02B0-\u02FF
CombiningDiacriticalMarks	�l�合用发音符	\u0300-\u036F
Greek	基本希腊�?br />	\u0370-\u03FF
Cyrillic	襉K��语	\u0400-\u04FF
Armenian		\u0530-\u058F
Hebrew		\u0590-\u05FF
Arabic		\u0600-\u06FF
Syriac		\u0700-\u074F
Thaana		\u0780-\u07BF
Devanagari		\u0900-\u097F
Bengali		\u0980-\u09FF
Gurmukhi		\u0A00-\u0A7F
Gujarati		\u0A80-\u0AFF
Oriya		\u0B00-\u0B7F
Tamil		\u0B80-\u0BFF
Telugu		\u0C00-\u0C7F
Kannada		\u0C80-\u0CFF
Malayalam		\u0D00-\u0D7F
Sinhala		\u0D800-\uDFF
Thai		\u0E00-\u0E7F
Lao		\u0E80-\u0EFF
Tibetan	藏语	\u0F00-\u0FFF
Myanmar		\u1000-\u109F
Georgian		\u10A0-\u10FF
HangulJamo		\u1100-\u11FF
Ethiopic		\u1200-\u137F
Cherokee		\u13A0-\u13FF
UnifiedCanadianAboriginalSyllabics		\u1400-\u167F
Ogham		\u1680-\u169F
Runic		\u16A0-\u16FF
Khmer		\u1780-\u17FF
Mongolian	蒙古�?br />	\u1800-\u18AF
LatinExtendedAdditional		\u1E00-\u1EFF
GreekExtended		\u1F00-\u1FFF
GeneralPunctuation	�q�义标点	\u2000-\u206F
SuperscriptsandSubscripts		\u2070-\u209F
CurrencySymbols	货币�W�号	\u20A0-\u20CF
CombiningMarksforSymbols		\u20D0-\u20FF
LetterlikeSymbols	�c�M��字母的符�?br />	\u2100-\u214F
NumberForms	数字形式	\u2150-\u218F
Arrows	��头	\u2190-\u21FF
MathematicalOperators	数学�q�算�W?br />	\u2200-\u22FF
MiscellaneousTechnical	零杂技术用�W�号	\u2300-\u23FF
ControlPictures		\u2400-\u243F
OpticalCharacterRecognition		\u2440-\u245F
EnclosedAlphanumerics	带括��L��字母数字	\u2460-\u24FF
BoxDrawing	制表�W?br />	\u2500-\u257F
BlockElements	方块囑�Ş	\u2580-\u259F
GeometricShapes	几何囑�Ş	\u25A0-\u25FF
MiscellaneousSymbols	零杂丁贝�W�（�C�意�W�等�Q?br />	\u2600-\u26FF
Dingbats		\u2700-\u27BF
BraillePatterns		\u2800-\u28FF
CJKRadicalsSupplement		\u2E80-\u2EFF
KangxiRadicals		\u2F00-\u2FDF
IdeographicDescriptionCharacters		\u2FF0-\u2FFF
CJKSymbolsandPunctuation	CJK�W�号和标�?br />	\u3000-\u303F
Hiragana	�q�_��?br />	\u3040-\u309F
Katakana	片假�?br />	\u30A0-\u30FF
Bopomofo	注音	\u3100-\u312F
HangulCompatibilityJamo		\u3130-\u318F
Kanbun		\u3190-\u319F
BopomofoExtended	扩展注音	\u31A0-\u31BF
EnclosedCJKLettersandMonths	带括��L��CJK字母及月�?br />	\u3200-\u32FF
CJKCompatibility	CJK兼容字符	\u3300-\u33FF
CJKUnifiedIdeographsExtensionA	CJK�l�一汉字扩展-A	\u3400-\u4dBF
CJKUnifiedIdeographs	CJK�l�一汉字	\u4E00-\u9fAF
YiSyllables		\uA000-\uA48F
YiRadicals		\uA490-\uA4CF
HangulSyllables		\uAC00-\uD7A3
HighSurrogates		\uD800-\uDB7F
HighPrivateUseSurrogates		\uDB80-\uDBFF
LowSurrogates		\uDC00-\uDFFF
PrivateUse	专用�?br />	\uE000-\uF8FF
CJKCompatibilityIdeographs	CJK兼容汉字	\uF900-\uFAFF
AlphabeticPresentationForms		\uFB00-\uFB4F
ArabicPresentationForms-A		\uFB50-\uFDFF
CombiningHalfMarks		\uFE20-\uFE2F
CJKCompatibilityForms	CJK兼容形式	\uFE30-\uFE4F
SmallFormVariants	��写变体	\uFE50-\uFE6F
ArabicPresentationForms-Bound		\uFE70-\ufeFF
Specials		\uFFF0-\uFFFF
HalfwidthandFullwidthForms	半�Ş及全形字�W?br />	\uFF00-\uFFEF

分类	全称	说明
Cn		UNASSIGNED
Lu		UPPERCASE_LETTER
Ll		LOWERCASE_LETTER
Lt		TITLECASE_LETTER
Lm		MODIFIER_LETTER
Lo		OTHER_LETTER
Mn		NON_SPACING_MARK
Me		ENCLOSING_MARK
Mc		COMBINING_SPACING_MARK
Nd		DECIMAL_DIGIT_NUMBER
Nl		LETTER_NUMBER
No		OTHER_NUMBER
Zs		SPACE_SEPARATOR
Zl		LINE_SEPARATOR
Zp		PARAGRAPH_SEPARATOR
Cc		CNTRL
Cf		FORMAT
Co		PRIVATE_USE
Cs		SURROGATE
Pd		DASH_PUNCTUATION
Ps		START_PUNCTUATION
Pe		END_PUNCTUATION
Pc		CONNECTOR_PUNCTUATION
Po		OTHER_PUNCTUATION
Sm		MATH_SYMBOL
Sc		CURRENCY_SYMBOL
Sk		MODIFIER_SYMBOL
So		OTHER_SYMBOL
L		LETTER
M		MARK
N		NUMBER
Z		SEPARATOR
C		CONTROL
P		PUNCTUATION
S		SYMBOL
LD		LETTER_OR_DIGIT
L1		Latin-1
all		ALL
ASCII		ASCII
Alnum		字母数字(0-9,a-z,A-Z)
Alpha		字母(a-z,A-Z)
Blank		�I�格和制表符(' '\|\t)
Cntrl		控制字符�Q�不可打�?br />
Digit		数字(0-9)
Graph		可打��C��可视字母�Q�例如空�? '是可打印的但不是可视字母�Q��?`a' 两者都是。）
Lower		��写字母
Print		可打印字母（非控制字�W�）
Punct		标符��P��字母、数字、控制、空白符以外的字母）�Q�如�Q?@#$%}{<>,./?[]�{�等�?br />
Space		�I�白�W?' ',\t,0x09,0x0A,0x0B,0x0C,0x0D,0x20)
Upper		大写字母
XDigit		十六�q�制数字(0-9�Q�a-f, A-F)

替换表达�?/h3>�Ҏ��字符
�Ҏ��字符介绍
描述
\n
换行
\b
向前删除一个字�W�。当�q�个字符位于替换串之首时�Q�将删除匚w��串之前的一个字�W�。若匚w��串位于行首，��匚w��串所在行与前一行相合�ƈ�?br />
\d
向后删除一个字�W�。当�q�个字符位于替换串之末时�Q�将删除匚w��串之后的一个字�W�。若匚w��串位于行末，��匚w��串所在行与下一行相合�ƈ�?br />
\e
插入一个ESC字符
\t
插入一个TAB字符
\n
n代表查找正则表达式中的子表达式（�l�）。\1代表�W�一个子表达式，\2代表�W�二个子表达式，依次�c�L��。\0代表整个匚w��到的字符丌Ӏ?br />
\v
大写下一个字�?br />
\U
全部大写以后的字母，直到��到其它指示�W��ؓ止�?br />
\l
��写下一个字�?br />
\L
全部��写以后的字母，直到��到其它指示�W��ؓ止�?br />
\E
取消所有的字母大小写指�C�符�?br />

自定义替换表

在查找／替换中��用自定义替换�?
有的时候，上述��单的自定义替换功能是不够的。例如，用户可能希望只把出现在括号内的源串替换�ؓ目标丌Ӏ�这�U�文本处理可以通过在查�?替换中��用自定义替换表来解决�?

在查�?替换功能中��用自定义替换表的替换函数是\Tn�Q�其中n�?-9的数字，注意n�?表示�W?0张替换表。如果略去n�Q�其效果相当于\T1�Q�即使用�W�一张替换表。例如要把所有放在方括号中的汉字替换为拼韻I��可以查找“\[(\E)\]”，替换为“\T{\1}”。即把第一个子表达式的匚w��内容按自定义替换表�{换。注意，如果\T函数的参��C��在替换表的源串中�Q�\T函数的结果与源串相同�Q�即不做��M��变换�?

有些情况下，用户可能希望只��用替换表的一部分内容。还是以拼音��Z��Q�前面给出的替换表中包含了拼音的韌��Q�如果在替换时不希望加上�q�些韌��数字�Q�可以��用“过滤”功能。所谓过滤，其实是用一个正则表辑ּ��d��析替换表的目标串�Q��ƈ把其中的某个子表辑ּ�取出来�?

使用“过滤”时�Q�在“设�|�自定义替换表”对话框中，点“过滤”按钮，在弹出的对话框中填入一个正则表辑ּ�。再以拼音�ؓ例，表达式可以写为�?\p{Alpha}+)(\d)”，其中�W�一�Ҏ��号中的是不含韌��的拼韻I��W�二�Ҏ��h��韌��。在调用\T函数�Ӟ��JTextPro会在目标串中查找�q�个正则表达式。但是如何把其中的子表达式取出来呢？\T函数�q�有一个可选的下标�Q�取�W�n个子表达式的值就写作\T{...}[n]。所以，把放在方括号中的汉字替换��Z��带调的拼韻I��可以查找“\[(\E)\]”，替换为“\T{\1}[1]�?

�W�笨 2005-12-12 09:16 发表评论

�W�笨 — Mon, 12 Dec 2005 01:05:00 GMT

减少全局竞争性同步，提高应用的垂直扩展能�?/P>

垂直扩展�Q�简单的��_��是当单一�pȝ��g升��扩展�Ӟ��如增加CPU�Q�内存，应用�E�序能够随之�U�性提高业务处理能力�?BR>多线�E�是服务�?Java 应用的标准处理方式，其优点不用赘�q�。本文要讨论的是�Q�如何在设计阶段降低多线�E�之间的竞争性同步开销�?/P>

假设一个Web应用�Q�需要�ؓ当前用户�l�护在线用户信息。此用户信息列表会放�?Application 范围的一�?Map 中，那么我们增加或删除一个在�U�用��L��操作会是�q�样�Q��?BR>Map clientMap = ...// from Application Context
synchronized(clientMap){
clientMap.put(clientId,clientObject);
}
�q�是一个典型的全局同步代码�Q�当�q�发�U�程增加�Ӟ��q�部分代码就有可能会存在潜在垂直扩展瓉��?/P>

最��单解军_��法：�?ConcurrentHashMap�?BR>ConcurrentHashMap的多�U�程下的表现要比HashMap好的多，可以做到随着�U�程数增长性能基本保持�E�_��?BR>参见�Q?A >http://www-128.ibm.com/developerworks/cn/java/j-jtp07233/index.html
�?ConcurrentHashMap 的分析，参见�Q?A >http://www-128.ibm.com/developerworks/cn/java/j-jtp08223/index.html

�?ConcurrentMap/ConcurrentLinkedQueue 不能帮助我们的情况下�Q�我们需要明��设计以避免全局竞争�?BR>基本原则是：
1 预分配，降低争用出现的频率�?BR>2 降低锁的�_�度�Q�将全局竞争变�ؓ局部竞争�?/P>

预分配策略示例：
对于一在线交易处理�pȝ��Q�需要�ؓ每个交易生成交易��水��P��假设有多��C��易服务器按照集群方式配置�Q�同时提供服务。那么需要在交易服务器之间进行同步，以保证交易流水号的正常增�ѝ�?BR>一�U�处理方式�ؓ�Q�在数据库中保存当前交易��水��L��最高��|��每台机器一�ơ预分配1000��水�Q�内部采用线�E�同步进行分配，用完再从数据库分配。这里数据库充当了全局存储和全局同步工具�Q�如果每来一条交易，��p��问一�ơ数据库�Q�考虑到数据库同步和事务的负担�Q�这里会成�ؓ严重的性能瓉��?/P>

降低锁粒度策略示例：
1 ConcurrentHashMap 本��n��是个很好的模范。它采用32颗锁�Q�来代替普�?HashMap 的单颗对象锁�?BR>2 对于数据库中�q�发大的表，可以考虑��表�U�锁改�ؓ行��锁，提高�q�发性�?BR>
暂时想不��h��C�Z��Q�有�I�再�?/FONT>

�W�笨 2005-12-12 09:05 发表评论

�W�笨 — Fri, 09 Dec 2005 03:27:00 GMT

JDK 1.5 对超大字�W�集的支�?/STRONG>

Unicode 与超大字�W�集
国标 GB18030 规定�?字节扩展部分�Q�这部分区域目前�?Unicode 规范中作为CJK Ext B区存在，卛_��说的中文��大字符集。这部分区域�~�码�?\U20000 - \U2A6D6�?/P>

UTF-16与Java String/Character 对象
一个完整的 Unicode 字符�?代码�?CodePoint�Q�而一�?Java char �?代码单元 code unit�?BR>String 对象以UTF-16保存 Unicode 字符�Q�需要用2个字�W�表�C�Z��?��大字符集的汉字�Q�这�q�种表示方式�U�C��?Surrogate�Q�第一个字�W�叫 Surrogate High�Q�第二个��是 Surrogate Low�?/P>
判断一个char是否�?Surrogate 区的字符�Q�用 Character�?isHighSurrogate()/isLowSurrogate()�Ҏ��?BR>从两个Surrogate High/Low 字符�Q�返回一个完整的 Unicode CodePoint �?Character.toCodePoint()/codePointAt()�Ҏ��?/P>
一�?Code Point �Q�可能需要一个也可能需要两个char表示�Q�因此不能直接��?CharSequence.length()�Ҏ��直接�q�回一个字�W�串到底有多��个汉字�Q�而需要用String.codePointCount()/Character.codePointCount()�?/P>
要定位字�W�串中的�W�N个字�W�，不能直接��?N 作�ؓ偏移量，而需要从字符串头部依�ơ遍历得刎ͼ�需要用String/Character.offsetByCodePoints() �Ҏ��?/P>
从字�W�串的当前字�W�，扑ֈ�上一个字�W�，也不能直接用offset -- 实现�Q�而需要用 String.codePointBefore()/Character.codePointBefore()�Q�或�?String/Character.offsetByCodePoints()

从当前字�W�，找下一个字�W�，不能直接�?offset ++ 实现�Q�需要判断当�?CodePoint 的长度后�Q�再计算得到�Q�或�?String/Character.offsetByCodePoints() �?/P>

Swing �?��大字符集的支持
JTextPane增加了对 ��大字符集的支持�Q�只要设�|�字体正��，��可以显�C�和�~�辑��大字符集�?BR>

�W�笨 2005-12-09 11:27 发表评论

�W�笨 — Wed, 07 Dec 2005 09:07:00 GMT

Java 多线�E�或内存泄漏�~�陷排查的一些经�?/STRONG>

JVM Thread DUMP 基本�?/STRONG>
Windows 下用Ctrl-Break,Unix 下用 kill -3 的命令让JVM输出 thread dump�?BR>每隔几秒 thread dump 一�ơ，多做几次�Q�分析比较�?/P>
Thread Dump分析的一些经�?BR>1 扑և��q�几�ơThread dump 文�g中，有哪�?Java Thread 处于长时间等待状态，很有可能��是问题之所在�?BR>2 如果Java �U�程�{�在某些不可能出错的地方�Q�如 java.lang.XXX/java.util.XXX对象的某个方法，则很有可能是因�ؓ出现�?OutOfMemoryError 异常�Q�原因不外乎是JVM 堆内存过��或出现内存泄漏�?BR>3 对于死锁�Q�最直接的表现就是至��两个线�E�长旉��{�待�怺�持有的对象（每个�U�程所持有的对象和它当前等待的对象都可以从 dump 中看刎ͼ��?BR>4 对于��d�@环，要辅助CPU占用率确定；如果发现CPU臛_��一颗��用率�?00%�Q��ƈ且有�U�程长时间位于用户代码处�Q�则很有可能是死循环引�v�?/P>

多线�E�缺��h��?BR>对于Java死锁问题很少出现�Q�多�U�程讉K��变量时冲�H�很常见�?BR>一般出在多�U�程�׃�n同一对象实例如全局Map�Q�Servlet,Interceptor�Q�或如多�U�程同时讉K��某个静态方法，而此静态方法不巧又讉K��另一个静态变量�?BR>�q�类问题自测发现不了�Q�在�q�发压力��试时才能发现。如果代码的入口��查做得好�Q�多半会抛出一些莫名其妙的异常�Q�要不然��׃��出现正常�q�行但数据库记录不对的情��c�?BR>对这�U�问题，�q�无多好的办法解冻I��主要�q�是靠看异常堆栈和静态代码分析来解决�?BR>

内存泄漏排查
一般用商用辅助工具排查�Q�但有可能出现在JVM heap dump 模式下，�q�行极度�~�慢的情��c�?BR>�W�笨曄��用过一个非常简单的工具�Q�效果不错，它可以做到在不媄响jvm 执行速度的情况下�Q�做heap dump�Q�然后对dump出的文�g�q�行排序�Q�检查即可�?/P>
heapprofile(http://www.virtualmachine.de/)

�W�笨 2005-12-07 17:07 发表评论

With or Without EJB?

�W�笨 — Wed, 07 Dec 2005 07:54:00 GMT

With or Without EJB?

EJB �q�行时所享受�?J2EE 基础服务

1 参与AppServer 提供分布式事务管�?JTA,JTS)�?BR>2 AppServer 提供高性能通讯框架(��Z��RMI �?IIOP实现)和大�q�发处理�?BR> 1) AppServer �?WebLogic/WebSphere 替换�?Sun 标准 RMI 实现�Q�基于著名的多线�E�阻塞IO�Q�，国内�?Apusic 4 则基于纯 NIO �?IIOP通讯协议实现EJB �q�程通讯�?
2) AppServer 提供 EJB 实例池、请求队列、执行线�E�池�{�等服务�?/P>
3 AppServer 提供透明 EJB 集群��理�Q�负载均衡、故障恢复）�Q�保证应用的处理能力能够水��^扩展�?BR>4 J2EE 安全体系
5 AppServer �Ҏ��的附加增值服�?BR> 1) �?WebLogic WTC EJB�Q�可实现从TUXEDO Service(C语言) 高性能讉K�� EJB�?/P>

大型��目所��x��的重�?/STRONG>

对于大型��目如全国集中这一�U�别而言�Q�它所��x��的重炚w��险反而是�pȝ��的性能、吞吐量、稳定性、高可用性这��L��一些基本属性，�q�里�q��说具体的业务功能��׃��重要�Q�而是与上�q�的基本属性相比，业务功能可以说是相对的不重要�?BR>基本属性如果有某一��Ҏ��有达刎ͼ�直接后果��是��目��p�|�Q�或者运行时存在高风险�?BR>业务功能则主要是堆时间、堆人、堆代码、堆��试人员的问题，如果实在来不及了�Q�那��放到第二期��d��好了�Q�不影响��L��律么�?/P>
对于大型��目而言�Q�采用新技术的��x��点主要是�Q?BR>1 能否满��基本质量属性，无重大运行时风险�?BR>比如��_��数据讉K��层，从性能和稳定性角度而言�Q�还��直接采�?JDBC �~�码合适，最多采用SQL映射型JDO。对于带�~�冲的JDO实现则不宜采用，会带来水�q�x��展和�E�_��性风险�?/P>
2 ��目�l�相关�h员是否有此技术的�l�验�Q�最好不要付出学习成本，避免因不熟悉所带来的风险�?/P>

EJB �?IoC 框架�?Spring 的定位比�?/STRONG>

Spring IoC/Context/AOP 可以认�ؓ是一个代码组�l?Assembler)框架�Q�关注代码如何组�l�和去耦�?/P>
EJB 则是�q�行�l�构�Q�关注我们的应用如何�q�行�Q�如何做集群�Q�系�l�计��资源如何分配等�{��?BR>EJB 3 的改�q�主要还是从代码�l�织角度做出的，对于 EJB �q�行时架构�ƈ没有多少变化�Q�如果说错了�Q�还��h��正）�Q�BEA �q�有�q�将 EJB 3的代码翻译�ؓ EJB 2.1 �q�行时架构的考虑�Q�参�?BEA 的关�?EJB 3 的一��文�?A >http://www.javaworld.com/javaworld/jw-08-2004/jw-0809-ejb_p.html�Q��?BR>
从上�q�角度来看，EJB �?Spring 是从不同的角度看待应用，我们完全可以做到�?Spring �l�织代码实现EJB�?/P>

With or Without EJB?
从上�q�讨论可以看出，用Spring�q�是用EJB�q�不是个问题�Q�最�l�还是看用户的实际需求而定。小Web��目多半不关注性能、�ƈ发、集��等�{�属性，��Z��开发过�E�简单和学习成本的考虑�Q�完全可以不用EJB�Q�而大型项目可能还是得用EJB�?BR>

�W�笨 2005-12-07 15:54 发表评论

�W�笨 — Fri, 02 Dec 2005 08:17:00 GMT

Java �?C 性能比较的一些经验数�?BR>
太细的数据也拿不刎ͼ�必须要针对具体��^台和JVM

基本代码执行
Java与C�?1:3-1:5左右�Q�在Intel�q�_��上用JDK1.4��得�?BR>JNI不快�Q�一�ơ基本JNI调用差不多等于一�ơJava�Ҏ��调用�Q�未考虑大数据量传输�Q?/P>
数据库访�?/STRONG>
JDBC与数据库本地接口差距较大�Q�差不多�?�?个数量��左右�Q�或更多。可以认为在1:10 - 1:50之间

socket�|�络传输
Java要分普通多�U�程和NIO方式
多线�E�方式，�q�发受限�Q�一般不会超�q?50-200个�ƈ发，再多性能不会增加。这�U�方式下�Q�网�l�传输性能与C差距可以认�ؓ�?个数量��左右�Q�即1:10-1:30�?BR>NIO方式�Q��ƈ发不错，能够支持到几千个�q�发�Q�性能差距��些�Q�可以做到在1:3 -- 1:5 左右�?BR>C 通过select/poll/epoll技术，�q�发10000没有多少问题�Q��ƈ且通过Zero-Copy技术，可以避开Java 所无法避免�~�冲区复�?Java->C�~�冲区复�?的问题�?/P>
�ȝ��来看�Q�Java与C在普通多层Web应用斚w��Q�差距可以认为在1个数量��左右�Q�关键应用如TP Monitor目前�q�无法��用Java�?BR>

�W�笨 2005-12-02 16:17 发表评论

Java中文&�~�码问题��结

�W�笨 — Sun, 09 Oct 2005 08:52:00 GMT
摘要: Java中文&�~�码问题��结 �W�笨 Java字符�~�码转换�q�程说明常见问题 JVM JVM启动后，JVM会设�|�一些系�l�属性以表明JVM的缺省区域�?user.language,user.region,file.encoding�{��?可以使用System.getPropertie... 阅读全文

�W�笨 2005-10-09 16:52 发表评论

正则表达式字�W�串	匚w��的字�W�串
XY	X后面跟随Y
X\|Y	X或�?i>Y
(X)	X作�ؓ分组表达�?br />

边界字符	匚w��的字�W�串
^	行首
$	行末
\b	字符边界
\B	非字�W�边�?br />
\A	输入��的开�?br />
\G	上次匚w��的结束处
\Z	输入��的�l�束�Q�或者是最后一个行�l�束�W�，参见行结束符�?br />
\z	输入��的�l�束

正则表达式字�W�串	匚w��的字�W�串
X?	X重复一�ơ，或者不重复
X*	X重复0�ơ或多次
X+	X重复1�ơ或多次
X{n}	X重复n�ơ，不多也不��?br />
X{n,}	X臛_��重复n��?br />
X{n,m}	X臛_��重复n�ơ，臛_��重复m�ơ�?br />

名称	块名�U�ͼ�\p{InXXX}�Q?br />	��化通配�W?br />	标准Unicode块，或者汉字列�?br />
��L��双字节字�W�（汉字或全角符��P��	\p{InQuqnJiao}	\E	��L��由GBK表示的汉字，不包括GB18030扩展部分�Q?br />以及CJK ExtB区的汉字�?br />
��L��单字节字�W?br />	\p{InFQuanJiao}	\~E	��L��单字节字�W��?br />
��L��全角ASCII字符	\p{InQJAscii}	\H	标准HalfwidthandFullwidthForms�?br />
��L��收录在BIG5码集中的双字节字�W?br />	\p{InBig5}	\I	Big5可编码双字节字符
匚w��未收录在BIG5码集中的双字节字�W?/td>	\p{InFBig5}	\~I	非Big5可编码双字节字符
匚w��L��汉字(不包括符�?	\p{InHanziOrCJKExtB}	\X	��L��汉字�Q�包括GB18030扩展部分�?br />
匚w��L��汉字(不包括符�?	\p{InHanzi}	\M	��L��汉字�Q�不包括GB18030扩展部分�?br />
匚w��非汉字的双字节字�W?br />	\p{InFHanzi}	\~M	��L��非汉字的双字节字�W�，包括GB18030扩展部分�?br />
地支字符	\p{InDiZhi}	\U	子丑寅卯辰埩午未申酉戌亥
匚w��收录在GB码集中的双字节字�W?br />	\p{InGB}	\g	收录在GB码集中的双字节字�W�，不包括GB18030扩展部分�?br />
匚w��非收录在GB码集中的双字节字�W?br />	\p{InFGB}	\~g	未收录在GB码集中的双字节字�W�，不包括GB18030扩展部分�?br />
匚w��收录在GBK码集中的双字节字�W?br />	\p{InGBK}	\h	收录在GBK码集中的双字节字�W�，不包括GB18030扩展部分�?br />
匚w��非收录在GBK码集中的双字节字�W?br />	\p{InFGBK}	\~h	未收录在GBK码集中的双字节字�W�，不包括GB18030扩展部分�?br />
大写希腊字母	\p{InDaXila}	\K	ΑΒΓΔΕΖΗΘΙΚΛΜΝ ΞΟΠΡΣ�f�`Φ��ΨΩ
日文片假�?br />	\p{InPianJia}	\j	标准Katakana�?br />
日文�q�_��?br />	\p{InPingJia}	\J	标准Hiragana�?br />
��写希腊字母	\p{InXiaoXila}	\k	��β��δεζηθικλμ�^ ξοπρστυφχψω
数学�W�号	\p{InMathe}	\m	�u×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒�?br />∫∮≡≌≈∽∝≠≮≯≤≥∞∵�?br />
中文数字	\p{InCnDigit}	\i	〇一二三四五六七八九十百千万亿兆吉京
大写中文数字	\p{InDaCnDigit}	\N	零壹贰叁肆伍陆柒捌玖拾䘪仟萬亿兆吉京
全角标点�W�号	\p{InQJBiaoDian}	\o	、。·ˉˇ¨〃々—～‖…‘’“”〔�?br />〈〉《》「」『』〖〗【】！�Q�＇�Q�）�Q?br />�Q�．�Q�；�Q�＝�Q�？�Q�］｛｜｝｀�H�﹊�H�﹌�H�﹎�H�﹐�H�﹒�H�﹕�H�﹗�H�﹚ �H�﹜�H�﹞�\|�︶�\|��ؓ�\|�﹀�\|��D�H�﹂�H�﹄ �\|��Ӈ�\|�P��\|��x�\|?br />
��写俄文字母	\p{InXiaoEWen}	\l	аб�{�C��еёжзий�a�xмн о�\рстуфхцчшщъыьэюя
大写俄文字母	\p{InDaEWen}	\R	АБВГДЕЁЖЗИЙКЛМНО ПРСТУФ�[ЦЧШЩЪЫЬ�f��y
中文序号	\p{InCnSN}	\q	ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ ⅰⅱ⅜y��ⅴⅵⅶⅷⅸⅹ 再加上Unicode标准EnclosedAlphanumerics�?br />
天干字符	\p{InTianGan}	\T	甲乙丙丁戊己庚辛壬癸
竖排标点�W�号	\p{InSPBiaoDian}	\V	�\|�︶�\|��ؓ�\|�﹀�\|��D�H�﹂�H�﹄�\|��Ӈ�\|�P��\|��x�\|?br />
拼音字符	\p{InPinyin}	\y	ā֙ǎàēéě؈ī�Tǐìō�Qǒòūúǔùǖǘǚǜü�^ɑńň�� GBK -> 0xA8A1- 0xA8C0 只是Unicode标准LatinExtended-A块的一部分�?br />
注音字符	\p{InZhuyin}	\Y	标准Bopomofo�?br />
制表字符	\p{InZhiBiao}	\C	标准BoxDrawing块�?br />�l�检查发�?textpro 的算法含有部分非�?br />准Unicode制表�W�：“∟∣≒≦≧⊎앐”�?br />

正则表达式字�W�串	匚w��的字�W�串
\p{Lower}	��写字母[a-z]
\p{Upper}	大写字母[A-Z]
\p{ASCII}	所有的ASCII字符[\x00-\x7F]
\p{Alpha}	大小写字母[\p{Lower}\p{Upper}]
\p{Digit}	数字[0-9]
\p{Alnum}	字母数字�W�，包含大小写字母和数字[\p{Alpha}\p{Digit}]
\p{Punct}	标点�W�号�Q?"#$%&'()*+,-./:;<=>?@[\]^_`{\|}~之一�?br />
\p{Graph}	可显�C�字�W�[\p{Alnum}\p{Punct}]
\p{Print}	可打印字�W�[\p{Graph}]
\p{Blank}	�I�格或者制表符[ \t]
\p{Cntrl}	控制字符[\x00-\x1F\x7F
\p{XDigit}	十六�q�制数字[0-9a-fA-F]
\p{Space}	�I�白�W�[ \t\n\x0B\f\r]

�Ҏ��字符介绍	描述
\n	换行
\b	向前删除一个字�W�。当�q�个字符位于替换串之首时�Q�将删除匚w��串之前的一个字�W�。若匚w��串位于行首，��匚w��串所在行与前一行相合�ƈ�?br />
\d	向后删除一个字�W�。当�q�个字符位于替换串之末时�Q�将删除匚w��串之后的一个字�W�。若匚w��串位于行末，��匚w��串所在行与下一行相合�ƈ�?br />
\e	插入一个ESC字符
\t	插入一个TAB字符
\n	n代表查找正则表达式中的子表达式（�l�）。\1代表�W�一个子表达式，\2代表�W�二个子表达式，依次�c�L��。\0代表整个匚w��到的字符丌Ӏ?br />
\v	大写下一个字�?br />
\U	全部大写以后的字母，直到��到其它指示�W��ؓ止�?br />
\l	��写下一个字�?br />
\L	全部��写以后的字母，直到��到其它指示�W��ؓ止�?br />
\E	取消所有的字母大小写指�C�符�?br />

久久国产亚洲电影天堂,一本色道久久88综合亚洲精品高清,最新精品亚洲成a人在线观看

一个通用的文仉����|�框�?/h1>

其它�Ҏ�?脚本文�g自动分析和插入配�|�行

�ȝ��

中文全文���索的实现以及一些经�?Java)

中文全文���索的实现以及一些经�?Java)

最�q�在��目中面临中文全文检索的需求，关键需求如下：

自行实现中文全文���索原理以及方法：

正则表达式说�?

目录

匚w��模式

字符子集

行结束符

Unicode支持

与Perl 5正则表达式语法对�?

正则表达式参�?/h2>

字符

逻辑操作�W?/h3>正则表达式字�W�串匚w��的字�W�串XYX后面跟随YX|YX或�?i>Y(X)X作�ؓ分组表达�?br />

向后引用

字符子集

预定义子集（元字�W�）

扩展子集�Q�元字符�Q?/h3>正则表达式字�W�串匚w��的字�W�串

Unicode块和分类

With or Without EJB?

Java中文&�~�码问题���结

一个通用的文仉��|�框�?/h1>

中文全文��索的实现以及一些经�?Java)

中文全文��索的实现以及一些经�?Java)

自行实现中文全文��索原理以及方法：

逻辑操作�W?/h3>
正则表达式字�W�串
匚w��的字�W�串
XY
X后面跟随Y
X|Y
X或�?i>Y
(X)
X作�ؓ分组表达�?br />

扩展子集�Q�元字符�Q?/h3>
正则表达式字�W�串
匚w��的字�W�串

Java中文&�~�码问题��结