亚洲欧洲国产经精品香蕉网,精品久久久久久亚洲综合网,国产成人亚洲精品电影

Cool Jazz — Mon, 09 Aug 2010 07:14:00 GMT

HashMap是一�U�十分常用的数据�l�构�Q�作��Z��个应用开发�h员，对其原理、实现的加深理解有助于更高效地进行数据存取。本文所用的jdk版本�?.5�?

使用HashMap

《Effective JAVA》中认�ؓ�Q?9%的情况下�Q�当你覆盖了equals�Ҏ��后，请务必覆盖hashCode�Ҏ��。默认情况下�Q�这两者会采用Object�?#8220;原生”实现方式�Q�即�Q?

Java代码�Q?a title="复制代码" onclick="dp.sh.Toolbar.CopyToClipboard(this);return false;" >

protected native int hashCode();
public boolean equals(Object obj) {
return (this == obj);
}

protected native int hashCode();
public boolean equals(Object obj) {
return (this == obj);
}

hashCode�Ҏ��的定义用��C��native关键字，表示它是由C或C++采用较�ؓ底层的方式来实现的，你可以认为它�q�回了该对象的内存地址�Q�而缺省equals则认为，只有当两者引用同一个对象时�Q�才认�ؓ它们是相�{�的。如果你只是覆盖了equals()而没有重新定义hashCode()�Q�在��d��HashMap的时候，除非你��用一个与你保存时引用完全相同的对象作为key��|��否则你将得不到该key所对应的倹{�?

另一斚w��Q�你应该��量避免使用“可变”的类作�ؓHashMap的键。如果你��一个对象作为键值�ƈ保存在HashMap中，之后又改变了其状态，那么HashMap��׃��产生混�ؕ�Q�你所保存的值可能丢失（��管遍历集合可能可以扑ֈ��Q�。可参�?em>http://www.ibm.com/developerworks/cn/java/j-jtp02183/

HashMap存取机制

Hashmap实际上是一个数�l�和链表的结合体�Q�利用数�l�来模拟一个个�Ӟ��c�M��于Bucket Sort�Q�以快速存取不同hashCode的key�Q�对于相同hashCode的不同key�Q�再调用其equals�Ҏ��从List中提取出和key所相对应的value�?

JAVA中hashMap的初始化主要是�ؓinitialCapacity和loadFactor�q�两个属性赋倹{��前者表�C�hashMap中用来区分不同hash值的key�I�间长度�Q�后者是指定了当hashMap中的元素��过多少的时候，开始自动扩容，。默认情况下initialCapacity�?6�Q�loadFactor�?.75�Q�它表示一开始hashMap可以存放16个不同的hashCode�Q�当填充到第12个的时候，hashMap会自动将其key�I�间的长度扩容到32�Q�以此类推；�q�点可以从源码中看出来：

Java代码�Q?/div>

void addEntry(int hash, K key, V value, int bucketIndex) {
Entry e = table[bucketIndex];
table[bucketIndex] = new Entry(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}

void addEntry(int hash, K key, V value, int bucketIndex) {
Entry e = table[bucketIndex];
table[bucketIndex] = new Entry(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}

而每当hashMap扩容后，内部的每个元素存攄��位置都会发生变化�Q�因为元素的最�l�位�|�是其hashCode对key�I�间长度取模而得�Q�，因此resize�Ҏ��中又会调用transfer函数�Q�用来重新分配内部的元素�Q�这个过�E�成为rehash�Q�是十分消耗性能的，因此在可预知元素的个数的情况下，一般应该避免��用缺省的initialCapacity�Q�而是通过构造函��Cؓ其指定一个倹{��例如我们可能会惌��数据库查询所�?000条记录以某个特定字段�Q�比如ID�Q��ؓkey�~�存在hashMap中，��Z��提高效率、避免rehash�Q�可以直接指定initialCapacity�?048�?

另一个值得注意的地�Ҏ��Q�hashMap其key�I�间的长度一定�ؓ2的N�ơ方�Q�这一点可以从一下源码中看出来：

Java代码�Q?/div>

int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;

int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;

即��我们在构造函��C��指定的initialCapacity不是2的��^�Ҏ��Q�capacity�q�是会被赋��gؓ2的N�ơ方�?

��Z��么Sun Microsystem的工�E�师要将hashMap key�I�间的长度设�?的N�ơ方呢？�q�里参考R.W.Floyed�l�出的衡量散列思想的三个标准：

��Z��各元素的hashCode保存至长度�ؓLength的key数组中，一般采用取模的方式�Q�即index = hashCode % Length。不可避免的�Q�存在多个不同对象的hashCode被安排在同一位置�Q�这��是我们�q�x��所谓的“冲突”。如果仅仅是考虑元素均匀化与冲突极小化，��g��应该��Length取�ؓ素数�Q�尽��没有明昄��理论来支持这一点，但数学家们通过大量的实践得出结论，对素数取模的产生�l�果的无��x��要大于其它数字�Q�。�ؓ此，Craig Larman and Rhett Guthrie《Java Performence》中�Ҏ��也大加抨凅R��ؓ了弄清楚�q�个问题�Q�Bruce Eckel�Q�Thinking in JAVA的作者）专程采访了java.util.hashMap的作者Joshua Bloch�Q��ƈ��他采用�q�种设计的原因放��C��|�上�Q?a target=_blank>http://www.roseindia.net/javatutorials/javahashmap.shtml�Q?�?

上述设计的原因在于，取模�q�算在包括JAVA在内的大多数语言中的效率都十分低下，而当除数�?的N�ơ方�Ӟ��取模�q�算��退化�ؓ最��单的位运��，其效率明显提升（按照Bruce Eckel�l�出的数据，大约可以提升5�?倍）。看看JDK中是如何实现的：

Java代码�Q?/div>

static int indexFor(int h, int length) {
return h & (length-1);
}

static int indexFor(int h, int length) {
return h & (length-1);
}

当key�I�间长度�?的N�ơ方�Ӟ��计算hashCode为h的元素的索引可以用简单的与操作来代替�W�拙的取模操作！假设某个对象的hashCode�?5�Q�二�q�制�?00011�Q�，而hashMap采用默认的initialCapacity�Q?6�Q�，那么indexFor计算所得结果将会是100011 & 1111 = 11�Q�即十进制的3�Q�是不是恰好�?5 Mod 16�?

上面的方法有一个问题，��是它的计算�l�果仅有对象hashCode的低位决定，而高位被�l�统屏蔽了；以上面�ؓ例，19�Q?0011�Q��?5�Q?00011�Q��?7�Q?000011�Q�等��具有相同的�l�果。针对这个问题， Joshua Bloch采用�?#8220;防�M性编�E?#8221;的解��x��法，在��用各对象的hashCode之前对其�q�行二次Hash�Q�参看JDK中的源码�Q?

Java代码�Q?/a>

static int hash(Object x) {
int h = x.hashCode();
h += ~(h << 9);
h ^= (h >>> 14);
h += (h << 4);
h ^= (h >>> 10);
return h;
}

static int hash(Object x) {
int h = x.hashCode();
h += ~(h << 9);
h ^=  (h >>> 14);
h +=  (h << 4);
h ^=  (h >>> 10);
return h;
}

采用�q�种旋�{Hash函数的主要目的是让原有hashCode的高位信息也能被充分利用�Q�且兼顾计算效率以及数据�l�计的特性，其具体的原理已超��Z��本文的领域�?

加快Hash效率的另一个有效途径是编写良好的自定义对象的HashCode�Q�String的实现采用了如下的计��方法：

Java代码�Q?/a>

for (int i = 0; i < len; i++) {
h = 31*h + val[off++];
}
hash = h;

for (int i = 0; i < len; i++) {
h = 31*h + val[off++];
}
hash = h;

�q�种�Ҏ��HashCode的计��方法可能最早出现在Brian W. Kernighan和Dennis M. Ritchie的《The C Programming Language》中�Q�被认�ؓ是性�h比最高的��法�Q�又被称为times33��法�Q�因为C中乘数常量�ؓ33�Q�JAVA中改�?1�Q�，实际上，包括List在内的大多数的对象都是用�q�种�Ҏ��计算Hash倹{�?

另一�U�比较特�D�的hash��法�U�Cؓ布隆�q��o器，它以牺牲�l�微�_�ֺ��Z��P��换来存储�I�间的大量节俭，常用于诸如判断用户名重复、是否在黑名单上�{�等�Q�可以参考李开复的数学之美�p�d��W?3��（http://googlechinablog.com/2006/08/blog-post.html�Q?

Fail-Fast机制

众所周知�Q�HashMap不是�U�程安全的集合类。但在某些容错能力较好的应用中，如果你不想仅仅因�?%的可能性而去承受hashTable的同步开销�Q�则可以考虑利用一下HashMap的Fail-Fast机制�Q�其具体实现如下�Q?

Java代码�Q?/a>

Entry nextEntry() {
if (modCount != expectedModCount)
throw new ConcurrentModificationException();
……
}

Entry nextEntry() {
if (modCount != expectedModCount)
throw new ConcurrentModificationException();
……
}

其中modCount为HashMap的一个实例变量，�q�且被声明�ؓvolatile�Q�表�C�Z�Q何线�E�都可以看到该变量被其它�U�程修改的结果（�Ҏ��JVM内存模型的优化，每一个线�E�都会存一份自��q��工作内存�Q�此工作内存的内容与本地内存�q��时时��d��都同步，因此可能会出现线�E�间的修改不可见的问题）。��用Iterator开始�P代时�Q�会��modCount的赋值给expectedModCount�Q�在�q�代�q�程中，通过每次比较两者是否相�{�来判断HashMap是否在内部或被其它线�E�修攏V��HashMap的大多数修改�Ҏ��都会改变ModCount�Q�参考下面的源码�Q?

Java代码�Q?/a>

public V put(K key, V value) {
K k = maskNull(key);
int hash = hash(k);
int i = indexFor(hash, table.length);
for (Entry e = table[i]; e != null; e = e.next) {
if (e.hash == hash && eq(k, e.key)) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, k, value, i);
return null;
}

public V put(K key, V value) {
K k = maskNull(key);
int hash = hash(k);
int i = indexFor(hash, table.length);
for (Entry e = table[i]; e != null; e = e.next) {
if (e.hash == hash && eq(k, e.key)) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, k, value, i);
return null;
}

以put�Ҏ��Z��Q�每�ơ往HashMap中添加元素都会导致modCount自增。其它诸如remove、clear�Ҏ��也都包含�c�M��的操作�?
从上面可以看出，HashMap所采用的Fail-Fast机制本质上是一�U�乐观锁机制�Q�通过��查状态——没有问题则忽略——有问题则抛出异常的方式�Q�来避免�U�程同步的开销�Q�下面给��Z��个在单线�E�环境下发生Fast-Fail的例子：

Java代码�Q?/a>

class Test {
public static void main(String[] args) {
java.util.HashMap map=new java.util.HashMap();
map.put(new Object(), "a");
map.put(new Object(), "b");
java.util.Iterator it=map.keySet().iterator();
while(it.hasNext()){
it.next();
map.put("", "");
System.out.println(map.size());
}
}

class Test {
public static void main(String[] args) {
java.util.HashMap map=new java.util.HashMap();
map.put(new Object(), "a");
map.put(new Object(), "b");
java.util.Iterator it=map.keySet().iterator();
while(it.hasNext()){
it.next();
map.put("", "");
System.out.println(map.size());
}
}

�q�行上面的代码会抛出java.util.ConcurrentModificationException�Q�因为在�q�代�q�程中修改了HashMap内部的元素导致modCount自增。若��上面代码中 map.put(new Object(), "b") �q�句注释掉，�E�序会顺利通过�Q�因为此时HashMap中只包含一个元素，�l�过一�ơ�P代后已到了尾部，所以不会出现问题，也就没有抛出异常的必要了�?
在通常�q�发环境下，�q�是��采用同步机制。这一般通过对自然封装该映射的对象进行同步操作来完成。如果不存在�q�样的对象，则应该��?Collections.synchronizedMap �Ҏ��?#8220;包装”该映��。最好在创徏时完成这一操作�Q�以防止意外的非同步讉K��?

LinkedHashMap

遍历HashMap所得到的数据是杂�ؕ无章的，�q�在某些情况下客户需要特定遍历顺序时是十分有用的。比如，�q�种数据�l�构很适合构徏 LRU �~�存。调�?put �?get �Ҏ��会讉K��相应的条目（假定调用完成后它�q�存在）。putAll �Ҏ��以指定映��的条目集合�q�代器提供的�?值映��关�pȝ��序�Q��ؓ指定映射的每个映��关�pȝ��成一个条目访问。Sun提供的J2SE说明文��特别规定��M��其他�Ҏ��均不生成条目讉K��Q�尤�Ӟ��collection 集合�cȝ��操作不会影响底层映射的�P代顺序�?

LinkedHashMap的实��C�� HashMap 的不同之处在于，前者维护着一个运行于所有条目的双重链接列表。此链接列表定义了�P代顺序，该�P代顺序通常��是集合中元素的插入��序。该�c�d��义了header、before与after三个属性来表示该集合类的头与前�?#8220;指针”�Q�其具体用法�c�M��于数据结构中的双链表�Q�以删除某个元素��Z��Q?

Java代码�Q?/a>

private void remove() {
before.after = after;
after.before = before;
}

private void remove() {
before.after = after;
after.before = before;
}

实际上就是改变前后指针所指向的元素�?

昄��Q�由于增加了�l�护链接列表的开支，其性能要比 HashMap �E�逊一�{�，不过有一点例外：LinkedHashMap的�P代所需旉��与其的所包含的元素成比例�Q�而HashMap �q�代旉��很可能开支较大，因�ؓ它所需要的旉��与其定w��Q�分配给Key�I�间的长度）成比例。一�a�以蔽之，随机存取用HashMap�Q�顺序存取或是遍历用LinkedHashMap�?

LinkedHashMap�q�重写了removeEldestEntry�Ҏ��以实现自动清除过期数据的功能�Q�这在HashMap中是无法实现的，因�ؓ后者其内部的元素是无序的。默认情况下�Q�LinkedHashMap中的removeEldestEntry的作用被关闭�Q�其具体实现如下�Q?

Java代码�Q?/a>

protected boolean removeEldestEntry(Map.Entry eldest) {
return false;
}

protected boolean removeEldestEntry(Map.Entry eldest) {
return false;
}

可以使用如下的代码覆盖removeEldestEntry�Q?

Java代码�Q?/a>

private static final int MAX_ENTRIES = 100;
protected boolean removeEldestEntry(Map.Entry eldest) {
return size() > MAX_ENTRIES;
}

private static final int MAX_ENTRIES = 100;
protected boolean removeEldestEntry(Map.Entry eldest) {
return size() > MAX_ENTRIES;
}

它表�C�，刚开始，LinkedHashMap中的元素不断增长�Q�当它内部的元素��过MAX_ENTRIES�Q?00�Q�后�Q�每当有新的元素被插入时�Q�都会自动删除双链表中最前端�Q�最旧）的元素，从而保持LinkedHashMap的长度稳定�?

�~�省情况下，LinkedHashMap采取的更新策略是�c�M��于队列的FIFO�Q�如果你惛_��现更复杂的更新逻辑比如LRU�Q�最�q�最��用） �{�，可以在构造函��C��指定其accessOrder为true�Q�因为的讉K��元素的方法（get�Q�内部会调用一�?#8220;钩子”�Q�即recordAccess�Q�其具体实现如下�Q?

Java代码�Q?/a>

void recordAccess(HashMap m) {
LinkedHashMap lm = (LinkedHashMap)m;
if (lm.accessOrder) {
lm.modCount++;
remove();
addBefore(lm.header);
}
}

void recordAccess(HashMap m) {
LinkedHashMap lm = (LinkedHashMap)m;
if (lm.accessOrder) {
lm.modCount++;
remove();
addBefore(lm.header);
}
}

上述代码主要实现了这��L��功能�Q�如果accessOrder被设�|��ؓtrue�Q�则每次讉K��元素�Ӟ��都将该元素移至headr的前面，即链表的��N��。将removeEldestEntry与accessOrder一起��用，��可以实现最基本的内存缓存，具体代码可参�?a target=_blank>http://bluepopopo.javaeye.com/blog/180236�?

WeakHashMap

99%的JAVA教材教导我们不要��d��预JVM的垃圑֛�收机�Ӟ��但JAVA中确实存在着与其密切相关的四�U�引用：强引用、��Y引用、弱引用以及�q�象引用�?

JAVA中默认的HashMap采用的是采用�c�M��于强引用的强键来��理的，�q�意味着即��作�ؓkey的对象已�l�不存在了（指没有�Q何一个引用指向它�Q�，也仍然会保留在HashMap中，在某些情况下�Q�例如内存缓存）中，�q�些�q�期的条目可能会造成内存泄漏�{�问题�?

WeakHashMap采用的策略是�Q�只要作为key的对象已�l�不存在了（��出生命周期�Q�，��׃��会阻止垃圾收集器清空此条目，即��当前机器的内存�ƈ不紧张。不�q�，�׃��GC是一个优先��很低的线�E�，因此不一定会很快发现那些只具有弱引用的对象，除非你显�C�地调用它，可以参考下面的例子�Q?

Java代码�Q?/a>

public static void main(String[] args) {
Mapmap = new WeakHashMap();
map.put(new String("Alibaba"), "alibaba");
while (map.containsKey("Alibaba")) {
try {
Thread.sleep(500);
} catch (InterruptedException ignored) {
}
System.out.println("Checking for empty");
System.gc();
}

public static void main(String[] args) {
Mapmap = new WeakHashMap();
map.put(new String("Alibaba"), "alibaba");
while (map.containsKey("Alibaba")) {
try {
Thread.sleep(500);
} catch (InterruptedException ignored) {
}
System.out.println("Checking for empty");
System.gc();
}

上述代码输出一�ơChecking for empty��退��Z��ȝ��E�，意味着GC在最�q�的一�ơ垃圑֛�收周期中清除了new String(“Alibaba”),同时WeakHashMap也做��Z��及时的反应，��该键对应的条目删除了。如果将map的类型改为HashMap的话�Q�由于其内部采用的是强引用机�Ӟ��因此即��GC被显�C��用，map中的条目依然存在�Q�程序会不断地打出Checking for empty字样。另外，在��用WeakHashMap的情况下�Q�若是将

Java代码�Q?/a>

map.put(new String("Alibaba"), "alibaba");

map.put(new String("Alibaba"), "alibaba");

改�ؓ

Java代码�Q?/a>

map.put("Alibaba", "alibaba");

map.put("Alibaba", "alibaba");

�E�序�q�是会不断输出Checking for empty。这与前面我们分析的WeakHashMap的弱引用机制�q�不矛盾�Q�因为JVM��Z��减小重复创徏和维护多个相同String的开销�Q�其内部采用了蝇量模式（《JAVA与模式》）�Q�此时的“Alibaba”是存攑֜�帔R��池而非堆中的，因此即��没有对象指向“Alibaba”�Q�它也不会被GC回收。弱引用特别适合以下对象�Q�占用大量内存，但通过垃圾回收功能回收以后很容易重新创建�?

介于HashMap和WeakHashMap之中的是SoftHashMap�Q�它所采用的��Y引用的策略指的是�Q�垃圾收集器�q�不像其攉��弱可及的对象一样尽量地攉��软可及的对象�Q�相反，它只在真�?“需�?#8221; 内存时才攉��软可及的对象。��Y引用对于垃圾攉��器来说是一�U?#8220;睁一只眼�Q�闭一只眼”方式�Q�即 “只要内存不太紧张�Q�我��׃��保留该对象。但是如果内存变得真正紧张了�Q�我��׃��L��集�ƈ处理�q�个对象�?#8221; ��p��一点看�Q�它其实要比WeakHashMap更适合于实现缓存机制。遗憄��是，JAVA中�ƈ没有实现相关的SoftHashMap�c�（Apache和Google提供了第三方的实玎ͼ��Q�但它却是提供了两个十分重要的类java.lang.ref.SoftReference以及ReferenceQueue�Q�可以在对象应用状态发生改变是得到通知�Q�可以参考com.alibaba.common.collection.SofthashMap中processQueue�Ҏ��的实�?

Java代码�Q?/a>

private ReferenceQueue queue = new ReferenceQueue();
ValueCell vc;
Map hash = new HashMap(initialCapacity, loadFactor);
……
while ((vc = (ValueCell) queue.poll()) != null) {
if (vc.isValid()) {
hash.remove(vc.key);
} else {
valueCell.dropped--;
}
}
}

private ReferenceQueue queue = new ReferenceQueue();
ValueCell vc;
Map hash = new HashMap(initialCapacity, loadFactor);
……
while ((vc = (ValueCell) queue.poll()) != null) {
if (vc.isValid()) {
hash.remove(vc.key);
} else {
valueCell.dropped--;
}
}
}

processQueue�Ҏ��会在几乎所有SoftHashMap的方法中被调用到�Q�JVM会通过ReferenceQueue的poll�Ҏ��通知该对象已�l�过期�ƈ且当前的内存现状需要将它释放，此时我们��可以将其从hashMap中剔除。事实上�Q�默认情况下�Q�Alibaba的MemoryCache所使用的就是SoftHashMap�?

来源�Q?a >http://grunt1223.javaeye.com/blog/544497

Cool Jazz 2010-08-09 15:14 发表评论

Cool Jazz — Wed, 04 Aug 2010 04:34:00 GMT

看了Eric77的��Y件开发的一些感惻I��五年工作�l�验�ȝ��Q�，很有感触。这个世界真是好大，自己作�ؓ个体真是太�ؓ��，�q�有太多的东襉K��要学习�?br /> 把他文章的部分�{接过来，��Z��自己也备注下�Q�对自己有个参考�?br /> 一、需求分�?设计,开�?��试和项目管理整个流�E�：

对�Q何系�l�来�? 无非是做�?件事: IPO. 也就是Input,Process,Output. �Q�偏重于设计�Q�类��g��计算机本�w�，作�ؓ�ȝ��本��n�q�是蛮清楚的�Q?/p>

寚w��求分析来�? 你最重要的是搞明�?用户的需�?也就是搞清用��L��输入(Input)和输�?Output)是什�?它的要求辑ֈ�的功�?Process)是什�? 明白以后,你就可以写一些用户需求说明书,描述用例,输入输出处理异常什么的,或者做一个简单的Demo�pȝ��,拿去�l�用��L��,看看�q�个界面是不是用户喜�Ƣ的,�q�个��程是不是用��h��需要的�{�等.�Q�注�Q�如果加入点��理�Q�就丰满了。还有以后的需求变��_��要知道需要可能是不断变化的）

然后��是�pȝ��分析: 首先,你需要对用户的需求分模块,每个模块的IPO是什�?他们应采用什么架�?需要和那些模块交互,互相之间的接口是怎样�?需要��用什么技�?每个模块的运行环境是什么样子的,�Ҏ��?安全或者容错等�Ҏ��是否要着重考虑.�Q�注�Q�考虑的蛮多的�Q�加个词�Q�系�l�的可扩展性）

接着��是�pȝ��设计: 每个模块的数据库要怎么设计,所用技术和架构军_��?要确定不同层�ơ有哪些接口,比如说表现层,业务逻辑�?数据库访问层,�怺�之间怎么调用,定好框架和开发模式和格式,剩下的就是编码了..�Q�注�Q�说的似乎少了点�Q?/p>

�~�码部分: 首先团队要有一个良好的�~�码规范.�q�且�Ҏ��个�h提交的代码要review,我发现程序编多了,自己��成了一台计��?看到�E�序��׃��知道会出��C��么结�?�Ҏ��都不用跑��h��.�Q�注�Q�编码的时候，多考虑下：复用和模式）

��试: 单元��试是否�~�写��试用例? Junit是个好工�?每个人都要保证好自己的代码没有问�? 整体��试��p��整个��程的跑一�?看看需求实现的对不�?�q�有没有什么其他纰�? .�Q�注�Q�测试分好多�U�，单元�Q�压力，持久性、黑白盒�{�，有专门的��试部分或组��׃��一样了�Q?/p>

风险��理: �q�一点很重要,要时�ȝ��道自��q��目有什么风�?无论是�h员的,技术的,旉��?�q�是协调上面�?都要心里有数,按时按周向领导汇报�?br />
以下部分—�?/p>

记得我去IBM面试的时�?问过,以后有几条职业发展的方向,回答有三�?一条是IT Specialist,一条是Project Manager,�q�有一条是IT Architect. 我还曾要求以后能不能向IT Architect发展,那�h�?Architect要熟悉很多技术呢,我问了两�?他这样回�{�了两遍.后来�l�我订了Advisory I/T Specialist. 我当时很�U�闷,我搞Java�q�么�?J2ME,J2SE,J2EE全都搞过,而且对Gof�?lt;Design Pattern>也悟�?�q?了熟于心,各种各样的经�怹��c�也看了不少,怎么不能向Architect发展�? 现在我加入了IBM,�q�入一个香港的��目,�q�段旉��要去香港培训几星�?才明白了,原来一个大��目会涉及到各种各样的语�a�,技�?什么Cobal(韌��),forturn(韌��),java,vb,C#,soa xx�ȝ��模式,mq,大型机开�?�{?很多我只在书上看到过的古老语�a�,�q�有一些听都没听过的语�a�,框架,模式,全都出现�?我当时这个汗�?我才发现我真的很无知.知识��是一个气�?你知道的��多,接触的越多就会发现自��p��无知.所以这也是我要今天赶紧把这个写出来的原�? 我怕以后又有了变故,�q�要沉淀,需要时�?

本文部分来自CSDN博客�Q?a >http://blog.csdn.net/Eric77/archive/2010/08/01/5781573.aspx

Cool Jazz 2010-08-04 12:34 发表评论

分布式计��框架Hadoop

Cool Jazz — Tue, 03 Aug 2010 09:03:00 GMT

        本文大部分内定w��是从官网Hadoop上�{来的。其中有��?/span>介绍HDFS的pdf文档�Q�对Hadoop介绍的比较全面�?br />       先说一下Hadoop的来龙去脉。谈到Hadoop��׃��得不提到Lucene�?/span>Nutch。首先，Lucene�q�不是一个应用程序，而是提供了一个纯Java的高性能全文索引引擎工具�?/span>�Q�它可以方便的嵌入到各种实际应用中实现全文搜�?索引功能�?span style="color: rgb(0,0,255)">Nutch是一个应用程序，是一个以Lucene为基��实现的搜索引擎应�?/span>�Q�Lucene 为Nutch提供了文本搜索和索引的API�Q�Nutch不光有搜索的功能�Q�还有数据抓取的功能。在nutch0.8.0版本之前�Q�Hadoop�q�属�?Nutch的一部分�Q�而从nutch0.8.0开始，��其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目，�q�就是Hadoop�Q��?nutch0.8.0版本较之以前的Nutch在架构上有了�Ҏ��性的变化�Q�那��是完全构徏在Hadoop的基��之上了。在Hadoop中实��C�� Google的GFS和MapReduce��法�Q��Hadoop成�ؓ了一个分布式的计��^台�?br />        Hadoop�q�不仅仅是一个用于存储的分布式文件系�l�，而是设计用来在由通用计算讑֤��l�成的大型集��上执行分布式应用的框架�?br />
   Hadoop包含两个部分�Q?/span>

   1、HDFS

      即Hadoop Distributed File System (Hadoop分布式文件系�l?
      HDFS ��h��高容错性，�q�且可以被部�|�在低�h的硬件设备之上。HDFS很适合那些有大数据集的应用�Q��ƈ且提供了�Ҏ��据读写的高吞吐率。HDFS是一�?master/slave的结构，��通常的部�|�来��_��在master上只�q�行一个Namenode�Q�而在每一个slave上运行一个Datanode�?br />       HDFS 支持传统的层�ơ文件组�l�结构，同现有的一些文件系�l�在操作上很�c�M��Q�比如你可以创徏和删除一个文�Ӟ��把一个文件从一个目录移到另一个目录，重命名等�{�操作。Namenode��理着整个分布式文件系�l�，�Ҏ��件系�l�的操作�Q�如建立、删除文件和文�g夹）都是通过Namenode来控制�?nbsp;
     下面是HDFS的结构：

      从上面的图中可以�?出，Namenode�Q�Datanode�Q�Client之间的通信都是建立在TCP/IP的基��之上的。当Client要执行一个写入的操作的时候，命��o 不是马上��发送到Namenode�Q�Client首先在本��Z��临时文�g夹中�~�存�q�些数据�Q�当临时文�g夹中的数据块辑ֈ�了设定的Block的��|��默认�?64M�Q�时�Q�Client便会通知Namenode�Q�Namenode便响应Client的RPC��h��Q�将文�g名插入文件系�l�层�ơ中�q�且�?Datanode中找��C��块存放该数据的block�Q�同时将该Datanode及对应的数据块信息告诉Client�Q�Client便这些本��C��时文件夹�?的数据块写入指定的数据节炏V�?br />       HDFS采取了副本策略，其目的是��Z��提高�pȝ��的可靠性，可用性。HDFS的副本放�|�策略是三个副本�Q?一个放在本节点上，一个放在同一机架中的另一个节点上�Q�还有一个副本放在另一个不同的机架中的一个节点上。当前版本的hadoop0.12.0中还没有�?玎ͼ�但是正在�q�行中，�怿�不久��可以出来了�?br />
   2、MapReduce的实�?br />
      MapReduce是Google 的一��w��要技术，它是一个编�E�模型，用以�q�行大数据量的计��。对于大数据量的计算�Q�通常采用的处理手法就是�ƈ行计��。至��现阶段而言�Q�对许多开发�h员来 ��_��q�行计算�q�是一个比较遥�q�的东西。MapReduce��是一�U�简化�ƈ行计��的�~�程模型�Q�它让那些没有多��ƈ行计��经验的开发�h员也可以开发�ƈ行应用�?br />       MapReduce的名字源于这个模型中的两��Ҏ��心操作：Map�?Reduce。也许熟悉Functional Programming�Q?/span>函数式编�E?/span>�Q?的�h见到�q�两个词会倍感亲切。简单的说来�Q�Map是把一�l�数据一对一的映��ؓ另外的一�l�数据，其映��的规则�׃��个函数来指定�Q�比如对[1, 2, 3, 4]�q�行�?的映��就变成了[2, 4, 6, 8]。Reduce是对一�l�数据进行归�U�，�q�个归约的规则由一个函数指定，比如对[1, 2, 3, 4]�q�行求和的归�U�得到结果是10�Q�而对它进行求�U�的归约�l�果�?4�?br />
      关于MapReduce的内容，��看看孟岩的这��?/span>MapReduce:The Free Lunch Is Not Over! �q�篇��是介绍的比较详�l�的。MapReduce的算法内容见Google文档�Q?a title="MapReduce.pdf" >MapReduce.pdf

        有关其它介绍Hadoop的文章徏议看下：分布式计��开源框架Hadoop介绍。（what�Q�why�Q�how提的不错�Q?br />
        安装配置可以看：1�?a rel="permalink">Hadoop中的集群配置和��用技�?/a>
                                        2�?a >Hadoop应用之Hadoop安装��?/a>
                                        3�?a title="Hadoop安装部��v指南" >Hadoop安装部��v指南
         如果要开发的话，初步参考：Hadoop基本��程与应用开�?/a>

         其中用到数据库的部分�Q�在Hadoop�?.19.0开始支撑数据库讉K��Q�主要采用DBInputFormat来访问数据库。文章可见：Hadoop中的数据库访�?/a>

Cool Jazz 2010-08-03 17:03 发表评论

Cool Jazz — Wed, 30 Jun 2010 01:08:00 GMT

--字符集编�?/h1>
1. 概述

本文主要包括以下几个斚w��Q�编码基本知识，java�Q�系�l��Y�Ӟ��url�Q�工兯��Y件等�?/p>
在下面的描述中，��以"中文"两个字�ؓ例，�l�查表可以知道其GB2312�~�码�?d6d0 cec4"�Q�Unicode�~�码�?4e2d 6587"�Q�UTF�~�码��是"e4b8ad e69687"。注意，�q�两个字没有iso8859-1�~�码�Q�但可以用iso8859-1�~�码�?表示"�?/p>
2. �~�码基本知识

最早的�~�码是iso8859-1�Q�和ascii�~�码�怼�。但��Z��方便表示各种各样的语�a��Q�逐渐出现了很多标准编码，重要的有如下几个�?/p>
2.1. iso8859-1

属于单字节编码，最多能表示的字�W�范围是0-255�Q�应用于英文�p�d��。比如，字母'a'的编码�ؓ0x61=97�?/p>
很明显，iso8859-1�~�码表示的字�W�范围很�H�，无法表示中文字符。但是，�׃��是单字节�~�码�Q�和计算机最基础的表�C�单位一��_��所以很多时候，仍旧使用iso8859-1�~�码来表�C�。而且在很多协议上�Q�默认��用该�~�码。比如，虽然"中文"两个字不存在iso8859-1�~�码�Q�以gb2312�~�码��Z��Q�应该是"d6d0 cec4"两个字符�Q��用iso8859-1�~�码的时候则��它拆开�?个字节来表示�Q?d6 d0 ce c4"�Q�事实上�Q�在�q�行存储的时候，也是以字节�ؓ单位处理的）。而如果是UTF�~�码�Q�则�?个字�?e4 b8 ad e6 96 87"。很明显�Q�这�U�表�C�方法还需要以另一�U�编码�ؓ基础�?/p>
2.2. GB2312/GBK

�q�就是汉子的国标码，专门用来表示汉字�Q�是双字节编码，而英文字母和iso8859-1一��_��兼容iso8859-1�~�码�Q�。其中gbk�~�码能够用来同时表示�J�体字和��体字�Q�而gb2312只能表示��体字�Q�gbk是兼容gb2312�~�码的�?/p>
2.3. unicode

�q�是最�l�一的编码，可以用来表示所有语�a�的字�W�，而且是定长双字节�Q�也有四字节的）�~�码�Q�包括英文字母在内。所以可以说它是不兼容iso8859-1�~�码的，也不兼容��M��~�码。不�q�，相对于iso8859-1�~�码来说�Q�uniocode�~�码只是在前面增加了一�?字节�Q�比如字�?a'�?00 61"�?/p>
需要说明的是，定长�~�码便于计算机处理（注意GB2312/GBK不是定长�~�码�Q�，而unicode又可以用来表�C�所有字�W�，所以在很多软�g内部是��用unicode�~�码来处理的�Q�比如java�?/p>
2.4. UTF

考虑到unicode�~�码不兼容iso8859-1�~�码�Q�而且�Ҏ��占用更多的空��_��因�ؓ对于英文字母�Q�unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而��生了utf�~�码�Q�utf�~�码兼容iso8859-1�~�码�Q�同时也可以用来表示所有语�a�的字�W�，不过�Q�utf�~�码是不定长�~�码�Q�每一个字�W�的长度�?-6个字节不�{�。另外，utf�~�码自带��单的校验功能。一般来�Ԍ��英文字母都是用一个字节表�C�，而汉字��用三个字节�?/p>
注意�Q�虽然说utf是�ؓ了��用更��的�I�间而��用的�Q�但那只是相对于unicode�~�码来说�Q�如果已�l�知道是汉字�Q�则使用GB2312/GBK无疑是最节省的。不�q�另一斚w��Q�值得说明的是�Q�虽然utf�~�码�Ҏ��字��?个字节，但即使对于汉字网��，utf�~�码也会比unicode�~�码节省�Q�因为网��中包含了很多的英文字符�?/p>
3. java对字�W�的处理

在java应用软�g中，会有多处涉及到字�W�集�~�码�Q�有些地斚w��要进行正��的讄��Q�有些地斚w��要进行一定程度的处理�?/p>
3.1. getBytes(charset)

�q�是java字符串处理的一个标准函敎ͼ�其作用是��字�W�串所表示的字�W�按照charset�~�码�Q��ƈ以字节方式表�C�。注意字�W�串在java内存中��L��按unicode�~�码存储的。比�?中文"�Q�正常情况下�Q�即没有错误的时候）存储�?4e2d 6587"�Q�如果charset�?gbk"�Q�则被编码�ؓ"d6d0 cec4"�Q�然后返回字�?d6 d0 ce c4"。如果charset�?utf8"则最后是"e4 b8 ad e6 96 87"。如果是"iso8859-1"�Q�则�׃��无法�~�码�Q�最后返�?"3f 3f"�Q�两个问��P��?/p>
3.2. new String(charset)

�q�是java字符串处理的另一个标准函敎ͼ�和上一个函数的作用相反�Q�将字节数组按照charset�~�码�q�行�l�合识别�Q�最后�{换�ؓunicode存储。参考上�q�getBytes的例子，"gbk" �?utf8"都可以得出正��的�l�果"4e2d 6587"�Q�但iso8859-1最后变成了"003f 003f"�Q�两个问��P��?/p>
因�ؓutf8可以用来表示/�~�码所有字�W�，所以new String( str.getBytes( "utf8" ), "utf8" ) === str�Q�即完全可逆�?/p>
3.3. setCharacterEncoding()

该函数用来设�|�http��h��或者相应的�~�码�?/p>
对于request�Q�是指提交内容的�~�码�Q�指定后可以通过getParameter()则直接获得正��的字符�Ԍ��如果不指定，则默认��用iso8859-1�~�码�Q�需要进一步处理。参见下�q?表单输入"。值得注意的是在执行setCharacterEncoding()之前�Q�不能执行�Q何getParameter()。java doc上说明：This method must be called prior to reading request parameters or reading input using getReader()。而且�Q�该指定只对POST�Ҏ��有效�Q�对GET�Ҏ��无效。分析原因，应该是在执行�W�一个getParameter()的时候，java��会按照�~�码分析所有的提交内容�Q�而后�l�的getParameter()不再�q�行分析�Q�所以setCharacterEncoding()无效。而对于GET�Ҏ��提交表单是，提交的内容在URL中，一开始就已经按照�~�码分析所有的提交内容�Q�setCharacterEncoding()自然��无效�?/p>
对于response�Q�则是指定输出内容的�~�码�Q�同�Ӟ��该设�|�会传递给��览器，告诉��览器输出内�Ҏ��采用的编码�?/p>
3.4. 处理�q�程

下面分析两个有代表性的例子�Q�说明java对编码有关问题的处理�Ҏ��?/p>
3.4.1. 表单输入

User input (gbk:d6d0 cec4) browser (gbk:d6d0 cec4) web server iso8859-1(00d6 00d 000ce 00c4) class�Q�需要在class中进行处理：getbytes("iso8859-1")�?u>d6 d0 ce c4�Q�new String("gbk")�?u>d6d0 cec4�Q�内存中以unicode�~�码则�ؓ4e2d 6587�?/p>
l 用户输入的编码方式和��面指定的编码有养I��也和用户的操作系�l�有养I��所以是不确定的�Q�上例以gbk��Z��?/p>
l 从browser到web server�Q�可以在表单中指定提交内�Ҏ��使用的字�W�集�Q�否则会使用��面指定的编码。而如果在url中直接用?的方式输入参敎ͼ�则其�~�码往往是操作系�l�本�w�的�~�码�Q�因��时和��面无关。上�q�C��旧以gbk�~�码��Z��?/p>
l Web server接收到的是字节流�Q�默认时�Q�getParameter�Q�会以iso8859-1�~�码处理之，�l�果是不正确的，所以需要进行处理。但如果预先讄��了编码（通过request. setCharacterEncoding ()�Q�，则能够直接获取到正确的结果�?/p>
l 在页面中指定�~�码是个好习惯，否则可能失去控制�Q�无法指定正��的�~�码�?/p>
3.4.2. 文�g�~�译

假设文�g是gbk�~�码保存的，而编译有两种�~�码选择�Q�gbk或者iso8859-1�Q�前者是中文windows的默认编码，后者是linux的默认编码，当然也可以在�~�译时指定编码�?/p>
Jsp (gbk:d6d0 cec4) java file (gbk:d6d0 cec4) compiler read uincode(gbk: 4e2d 6587; iso8859-1: 00d6 00d 000ce 00c4) compiler write utf(gbk: e4b8ad e69687; iso8859-1: *) compiled file unicode(gbk: 4e2d 6587; iso8859-1: 00d6 00d 000ce 00c4) class。所以用gbk�~�码保存�Q�而用iso8859-1�~�译的结果是不正��的�?/p>
class unicode(4e2d 6587) system.out / jsp.out gbk(d6d0 cec4) os console / browser�?/p>
l 文�g可以以多�U�编码方式保存，中文windows下，默认为ansi/gbk�?/p>
l �~�译器读取文件时�Q�需要得到文件的�~�码�Q�如果未指定�Q�则使用�pȝ��默认�~�码。一般class文�g�Q�是以系�l�默认编码保存的�Q�所以编译不会出问题�Q�但对于jsp文�g�Q�如果在中文windows下编辑保存，而部�|�在英文linux下运�?�~�译�Q�则会出现问题。所以需要在jsp文�g中用pageEncoding指定�~�码�?/p>
l Java�~�译的时候会转换成统一的unicode�~�码处理�Q�最后保存的时候再转换为utf�~�码�?/p>
l 当系�l�输出字�W�的时候，会按指定�~�码输出�Q�对于中文windows下，System.out��用gbk�~�码�Q�而对于response�Q�浏览器�Q�，则��用jsp文�g头指定的contentType�Q�或者可以直接�ؓresponse指定�~�码。同�Ӟ��会告诉browser�|�页的编码。如果未指定�Q�则会��用iso8859-1�~�码。对于中文，应该为browser指定输出字符串的�~�码�?/p>
l browser昄��|�页的时候，首先使用response中指定的�~�码�Q�jsp文�g头指定的contentType最�l�也反映在response上）�Q�如果未指定�Q�则会��用网��中meta��Ҏ��定中的contentType�?/p>
3.5. 几处讄��

对于web应用�E�序�Q�和�~�码有关的设�|�或者函数如下�?/p>
3.5.1. jsp�~�译

指定文�g的存储编码，很明显，该设�|�应该置于文件的开头。例如：<%@page pageEncoding="GBK"%>。另外，对于一般class文�g�Q�可以在�~�译的时候指定编码�?/p>
3.5.2. jsp输出

指定文�g输出到browser是��用的�~�码�Q�该讄��也应该置于文件的开头。例如：<%@ page contentType="text/html; charset= GBK" %>。该讄��和response.setCharacterEncoding("GBK")�{�效�?/p>
3.5.3. meta讄��

指定�|�页使用的编码，该设�|�对静态网��尤其有作用。因为静态网��|��法采用jsp的设�|�，而且也无法执行response.setCharacterEncoding()。例如：<META http-equiv="Content-Type" content="text/html; charset=GBK" />

如果同时采用了jsp输出和meta讄��两种�~�码指定方式�Q�则jsp指定的优先。因为jsp指定的直接体现在response中�?/p>
需要注意的是，apache有一个设�|�可以给无编码指定的�|�页指定�~�码�Q�该指定�{�同于jsp的编码指定方式，所以会覆盖静态网��中的meta指定。所以有人徏议关闭该讄��?/p>
3.5.4. form讄��

当浏览器提交表单的时候，可以指定相应的编码。例如：
。一般不必不使用该设�|�，��览器会直接使用�|�页的编码�?/p>
4. �pȝ��软�g

下面讨论几个相关的系�l��Y件�?/p>
4.1. mysql数据�?/p>
很明显，要支持多语言�Q�应该将数据库的�~�码讄��成utf或者unicode�Q�而utf更适合与存储。但是，如果中文数据中包含的英文字母很少�Q�其实unicode更�ؓ适合�?/p>
数据库的�~�码可以通过mysql的配�|�文件设�|�，例如default-character-set=utf8。还可以在数据库链接URL中设�|�，例如�Q?useUnicode=true&characterEncoding=UTF-8。注意这两者应该保持一��_��在新的sql版本里，在数据库链接URL里可以不�q�行讄��Q�但也不能是错误的设�|��?/p>
4.2. apache

appache和编码有关的配置在httpd.conf中，例如AddDefaultCharset UTF-8。如前所�q�ͼ�该功能会��所有静态页面的�~�码讄��为UTF-8�Q�最好关闭该功能�?/p>
另外�Q�apache�q�有单独的模块来处理�|�页响应��_��其中也可能对�~�码�q�行讄��?/p>
4.3. linux默认�~�码

�q�里所说的linux默认�~�码�Q�是指运行时的环境变量。两个重要的环境变量是LC_ALL和LANG�Q�默认编码会影响到java URLEncode的行为，下面有描�q��?/p>
��都设�|��ؓ"zh_CN.UTF-8"�?/p>
4.4. 其它

��Z��支持中文文�g名，linux在加载磁盘时应该指定字符集，例如�Q�mount /dev/hda5 /mnt/hda5/ -t ntfs -o iocharset=gb2312�?/p>
另外�Q�如前所�q�ͼ�使用GET�Ҏ��提交的信息不支持request.setCharacterEncoding()�Q�但可以通过tomcat的配�|�文件指定字�W�集�Q�在tomcat的server.xml文�g中，形如�Q?lt;Connector ... URIEncoding="GBK"/>。这�U�方法将�l�一讄��所有请求，而不能针对具体页面进行设�|�，也不一定和browser使用的编码相同，所以有时候�ƈ不是所期望的�?/p>
5. URL地址

URL地址中含有中文字�W�是很麻烦的�Q�前面描�q�过使用GET�Ҏ��提交表单的情况，使用GET�Ҏ��Ӟ��参数��是包含在URL中�?/p>
5.1. URL�~�码

对于URL中的一些特�D�字�W�，��览器会自动�q�行�~�码。这些字�W�除�?/?&"�{�外�Q�还包括unicode字符�Q�比如汉子。这时的�~�码比较�Ҏ��?/p>
IE有一个选项"��L��使用UTF-8发送URL"�Q�当该选项有效�Ӟ��IE��会对特�D�字�W�进行UTF-8�~�码�Q�同时进行URL�~�码。如果改选项无效�Q�则使用默认�~�码"GBK"�Q��ƈ且不�q�行URL�~�码。但是，对于URL后面的参敎ͼ�则��L��不进行编码，相当于UTF-8选项无效。比�?中文.html?a=中文"�Q�当UTF-8选项有效�Ӟ��发送链�?%e4%b8%ad%e6%96%87.html?a=\x4e\x2d\x65\x87"�Q�而UTF-8选项无效�Ӟ��发送链�?\x4e\x2d\x65\x87.html?a=\x4e\x2d\x65\x87"。注意后者前面的"中文"两个字只�?个字节，而前者却�?8个字节，�q�主要时URL�~�码的原因�?/p>
当web server�Q�tomcat�Q�接收到该链接时�Q�将会进行URL解码�Q�即��L��"%"�Q�同时按照ISO8859-1�~�码�Q�上面已�l�描�q�ͼ�可以使用URLEncoding来设�|�成其它�~�码�Q�识别。上�q�C��子的�l�果分别�?\ue4\ub8\uad\ue6\u96\u87.html?a=\u4e\u2d\u65\u87"�?\u4e\u2d\u65\u87.html?a=\u4e\u2d\u65\u87"�Q�注意前者前面的"中文"两个字恢复成�?个字�W�。这里用"\u"�Q�表�C�是unicode�?/p>
所以，�׃��客户端设�|�的不同�Q�相同的链接�Q�在服务器上得到了不同结果。这个问题不��h都遇刎ͼ�却没有很好的解决办法。所以有的网站会��用户��试关闭UTF-8选项。不�q�，下面会描�q�C��个更好的处理办法�?/p>
5.2. rewrite

熟悉的�h都知道，apache有一个功能强大的rewrite模块�Q�这里不描述其功能。需要说明的是该模块会自动将URL解码�Q�去�?�Q�，卛_��成上�q�web server�Q�tomcat�Q�的部分功能。有相关文��介绍说可以��用[NE]参数来关闭该功能�Q�但我试验�ƈ未成功，可能是因为版本（我��用的是apache 2.0.54�Q�问题。另外，当参��C��含有"?& "�{�符��L��时候，该功能将��D��pȝ��得不到正常结果�?/p>
rewrite本��n��g��完全是采用字节处理的方式�Q�而不考虑字符串的�~�码�Q�所以不会带来编码问题�?/p>
5.3. URLEncode.encode()

�q�是Java本��n提供对的URL�~�码函数�Q�完成的工作和上�q�UTF-8选项有效时浏览器所做的工作�怼�。值得说明的是�Q�java已经不赞成不指定�~�码来��用该�Ҏ��Q�deprecated�Q�。应该在使用的时候增加编码指定�?/p>
当不指定�~�码的时候，该方法��用系�l�默认编码，�q�会��D��软�g�q�行�l�果得不��定。比如对�?中文"�Q�当�pȝ��默认�~�码�?gb2312"�Ӟ��l�果�?%4e%2d%65%87"�Q�而默认编码�ؓ"UTF-8"�Q�结果却�?%e4%b8%ad%e6%96%87"�Q�后�l�程序将难以处理。另外，�q�儿说的�pȝ��默认�~�码是由�q�行tomcat时的环境变量LC_ALL和LANG�{�决定的�Q�曾�l�出现过tomcat重启后就出现��q��的问题，最后才郁闷的发现是因�ؓ修改修改了这两个环境变量�?/p>
��l�一指定�?UTF-8"�~�码�Q�可能需要修改相应的�E�序�?/p>
5.4. 一个解��x��?/p>
上面说�v�q�，因�ؓ��览器设�|�的不同�Q�对于同一个链接，web server收到的是不同内容�Q�而��Y件系�l�有无法知道�q�中间的区别�Q�所以这一协议目前�q�存在缺陗��?/p>
针对具体问题�Q�不应该侥幸认�ؓ所有客��L��IE讄��都是UTF-8有效的，也不应该�_�暴的徏议用户修改IE讄��Q�要知道�Q�用户不可能去记住每一个web server的设�|�。所以，接下来的解决办法��只能是让自��q��E�序多一�Ҏ��能：�Ҏ��内容来分析编码是否UTF-8�?/p>
比较�q�运的是UTF-8�~�码相当有规律，所以可以通过分析传输�q�来的链接内容，来判断是否是正确的UTF-8字符�Q�如果是�Q�则以UTF-8处理之，如果不是�Q�则使用客户默认�~�码�Q�比�?GBK"�Q�，下面是一个判断是否UTF-8的例子，如果你了解相应规律，��容易理解�?/p>
public static boolean isValidUtf8(byte[] b,int aMaxCount){

       int lLen=b.length,lCharCount=0;

       for(int i=0;i
              byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)

              if(lByte>=0) continue;//>=0 is normal ascii

              if(lByte<(byte)0xc0 || lByte>(byte)0xfd) return false;

              int lCount=lByte>(byte)0xfc?5:lByte>(byte)0xf8?4

                     :lByte>(byte)0xf0?3:lByte>(byte)0xe0?2:1;

              if(i+lCount>lLen) return false;

              for(int j=0;j=(byte)0xc0) return false;

       }

       return true;

}

相应圎ͼ�一个��用上�q�方法的例子如下�Q?/p>
public static String getUrlParam(String aStr,String aDefaultCharset)

throws UnsupportedEncodingException{

       if(aStr==null) return null;

       byte[] lBytes=aStr.getBytes("ISO-8859-1");

       return new String(lBytes,StringUtil.isValidUtf8(lBytes)?"utf8":aDefaultCharset);

}

不过�Q�该�Ҏ��也存在缺��P��如下两方面：

l 没有包括对用户默认编码的识别�Q�这可以�Ҏ��h��信息的语�a�来判断，但不一定正��，因�ؓ我们有时候也会输入一些韩文，或者其他文字�?/p>
l 可能会错误判断UTF-8字符�Q�一个例子是"学习"两个字，其GBK�~�码�? \xd1\xa7\xcf\xb0"�Q�如果��用上�q�isValidUtf8�Ҏ��判断�Q�将�q�回true。可以考虑使用更严格的判断�Ҏ��Q�不�q�估计效果不大�?/p>
有一个例子可以证明google也遇��C��上述问题�Q�而且也采用了和上�q�相似的处理�Ҏ��Q�比如，如果在地址栏中输入"
最后，应该补充说明一下，如果不��用rewrite规则�Q�或者通过表单提交数据�Q�其实�ƈ不一定会遇到上述问题�Q�因��时可以在提交数据时指定希望的�~�码。另外，中文文�g名确实会带来问题�Q�应该�}慎��用�?/p>
6. 其它

下面描述一些和�~�码有关的其他问题�?/p>
6.1. SecureCRT

除了��览器和控制��C��~�码有关外，一些客��L��也很有关�p�R��比如在使用SecureCRT�q�接linux�Ӟ��应该让SecureCRT的显�C�编码（不同的session�Q�可以有不同的编码设�|�）和linux的编码环境变量保持一致。否则看到的一些帮助信息，��可能是��q��?/p>
另外�Q�mysql有自��q��~�码讄��Q�也应该保持和SecureCRT的显�C�编码一致。否则通过SecureCRT执行sql语句的时候，可能无法处理中文字符�Q�查询结果也会出��Cؕ码�?/p>
对于Utf-8文�g�Q�很多编辑器�Q�比如记事本�Q�会在文件开头增加三个不可见的标志字节，如果作�ؓmysql的输入文�Ӟ��则必��要��L��q�三个字�W�。（用linux的vi保存可以��L��q�三个字�W�）。一个有��的现象是，在中文windows下，创徏一个新txt文�g�Q�用��C��本打开�Q�输�?�q��?两个字，保存�Q�再打开�Q�你会发��C��个字没了�Q�只留下一个小黑点�?/p>
6.2. �q��o�?/p>
如果需要统一讄��~�码�Q�则通过filter�q�行讄��是个不错的选择。在filter class中，可以�l�一为需要的��h��或者回应设�|�编码。参加上�q�setCharacterEncoding()。这个类apache已经�l�出了可以直接��用的例子SetCharacterEncodingFilter�?/p>
6.3. POST和GET

很明显，以POST提交信息�Ӟ��URL有更好的可读性，而且可以方便的��用setCharacterEncoding()来处理字�W�集问题。但GET�Ҏ��形成的URL能够更容易表辄��늚�实际内容�Q�也能够用于收藏�?/p>
从统一的角度考虑问题�Q�徏议采用GET�Ҏ��Q�这要求在程序中获得参数是进行特�D�处理，而无法��用setCharacterEncoding()的便利，如果不考虑rewrite�Q�就不存在IE的UTF-8问题�Q�可以考虑通过讄��URIEncoding来方便获取URL中的参数�?/p>
6.4. ��J�体�~�码转换

GBK同时包含��体和�J�体�~�码�Q�也��是说同一个字�Q�由于编码不同，在GBK�~�码下属于两个字。有时候，��Z��正确取得完整的结果，应该��繁体和��体进行统一。可以考虑��UTF、GBK中的所有繁体字�Q��{换�ؓ相应的简体字�Q�BIG5�~�码的数据，也应该�{化成相应的简体字。当�Ӟ��仍旧以UTF�~�码存储�?/p>
例如�Q�对�?语言語言"�Q�用UTF表示�?\xE8\xAF\xAD\xE8\xA8\x80 \xE8\xAA\x9E\xE8\xA8\x80"�Q�进行简�J�体�~�码转换后应该是两个相同�?"\xE8\xAF\xAD\xE8\xA8\x80>"�?br />

转蝲于：刘科�?Manufacturer.com

Cool Jazz 2010-06-30 09:08 发表评论

Cool Jazz — Sun, 09 Nov 2008 12:01:00 GMT

        最�q�比较忙。因为我马上��p��毕业了，正在扑ַ�作。自己去�|�上下了html版的��历。编辑了�Q�放入邮��。在自己的机子上能看出来�Q�我以�ؓ��发出去别�h也能看得到呢。后来我同学问我怎么才能在邮仉��昄��照片�Q�我��把�Ҏ��告诉他，�q�且把他的照片传��C��我在JR的相册里。�v初在他的邮�g里（本地�|�络�Q�可以看到。我��׃��为成功了呢。改天他发了邮�g�l�他同学看，却发现看不到�?br />         我真是奇怪了。怎么会看不到呢？
        照片的地址�Q�单独点�ȝ��话可以看到。在别�h的邮仉��是看不刎ͼ�除非那个��Z��点击了照片的地址�Q��ƈ把照片显�C�出来后�Q�才能在邮�g里显�C�。搞了好几次都是�q�个样子�Q�我无语了�?br />         ��N��说JR的相册不能被外�h看到�Q?br />         不应该啊�Q�别人是可以看到的呀。莫非JR的相册自动限制了�Q�照片的下蝲�Q?br />         也许是这个原因，我想�?br />         我换了Blogjava�Q�找了我的同学测试。把JR的测试了3�Q?�ơ都不能昄��。最后我��试了Blogjava�Q�成功了�Q�（�Ҏ��׃��用我在啰嗦了吧：�Q�）
        看来�q�是Blogjava好啊。我后一定要在这里多写blog�Q?br />         以前�Q�我很少写技术的blog�Q�因��己想写的东西多数和公司的代码有关�Q�有时候想写却不能把代码脓出来。烦性就不写blog。只是去技术性的�|�站或开源的�|�站看最新的英文新闻。如果有新消息，��把它翻译过来，攑ֈ�自己的blog里�?br />        Blogjava�l�我的感觉是�Q�功能比JR的强。但是�h气似乎要�׃��些�?br />        不关怎么��P��我以后会多到�q�里来的�?br />

Cool Jazz 2008-11-09 20:01 发表评论

Cool Jazz — Sun, 21 Sep 2008 05:46:00 GMT

好多天没来了。最�q�在忙论文的事情�Q�每天白天要上班。公司晚上又断线不能上网。所以每天只能查了资料保存�v来晚上在看�?br /> 毕竟以前做了数据库的��目�Q�相�Ҏ��说好写点。只是我做的那些东西被师兄给“�?#8221;了。所以留�l�自��q��隑ֺ�不小�?br /> 哎，公司现在�q�行的东西比较老了�Q�虽然有市场。多��年都是�q�样的老架构。没有新东西出来�Q�将来会比较�ȝ��。现在是在公司，�w�不由己。既然公叔R��目帮不上什么忙�Q�就自己动手了。采用现在的��L��框架�Q�结合IEC规约�Q�在整合上数据库集群�Q�服务器集群。。。似乎是多了�Q�但是不写，自己会觉得没有什么东�ѝ��学校那些老师�Q�都不知道现在外面的技术进展情况，��是那老技术来写，他们可能�q�觉得挺新的。不�q�，不能骗自己啊。搞�q�么多架构的东西�Q�没有程序，没有实际的运行和��试�Q�你能说服得了谁�Q�程序是写了�Q�把原来在学校研�I�的��目拿来�Q�加上Spring攚w��，DWR包装成JavaScript�Q�在传给��试界面。。�?br /> 真难啊，最隄��也就是调试了。也��是只能每天晚上搞，真篏�Q?br /> �q�好我搞出来了，攑֜�Apache和Tomcat集群下，�q�行�q�些�E�序抓了些图�Q�真爽啊�Q?br /> 只是我的服务器集��是�|�上参考别人的�Q�还真没�q�行�q�。哎�Q�没机器啊，公司的机器又不能随便用。我最怕的是通信�Q�我没做�q�，只是用了公司以前做的通信�l��g拿来用，�q�行能用。要是连RTU��的话，��更好了�Q�可惜。。�?br /> 庆祝一下，我的服务器后台架构测试成功！感谢Java�Q�感谢Spring和Hibernate�Q�感谢PostgreSQL�Q�感谢开源！
整理论文�?�Q�）

Cool Jazz 2008-09-21 13:46 发表评论

Cool Jazz — Fri, 12 Sep 2008 01:50:00 GMT

在距��Hibernate3.3.0GA发布不到一个月的时间内�Q?.3.1GA发布了。感觉真是快啊。原来是修正了bug�?/p>

�q�次发布主要是修正了CurrentSessionContext(SessionFactory.getCurrentSession())�q�行在IBM WebSphered的严重问题�?span style="white-space: normal; ">它也包括了id发生器等不少改进。细节部分和全部变化�Q�请查看变化日志�?/span>

Hibernate Core 3.3.1 has just been released with its artifacts published to the JBoss Maven Repository. This release fixed a serious issue with CurrentSessionContext (SessionFactory.getCurrentSession()) when running on IBM WebSphere. It also includes quite a few improvements to the enhanced id generators. For details about all the changes in this release, check out it's changelog

Cool Jazz 2008-09-12 09:50 发表评论

Cool Jazz — Thu, 11 Sep 2008 08:07:00 GMT

�ȝ��Blog不多�Q�偶然见了Blogjava。没什么想法，安个家吧。也许这里会僻静些�?br /> 写个首Blog�Q�发现这里的Blog�Ҏ��提示�q�有英文�Q�呵��c��不�q�，对于看API来说�Q�这些算��意思�?br /> 乱涂�Q��ؕ涂。。�?br />

Cool Jazz 2008-09-11 16:07 发表评论

亚洲欧洲国产经精品香蕉网,精品久久久久久亚洲综合网,国产成人亚洲精品电影

分布式计���框架Hadoop

分布式计��框架Hadoop