亂碼問(wèn)題總算解決了
摘要: 昨天發(fā)了一下,新寫(xiě)的GAE應(yīng)用,得到了不少同學(xué)的關(guān)注。今晚再接再厲,把亂碼解決了。說(shuō)一下解決的方法。
下面這段代碼用來(lái)獲取文章內(nèi)容,并通過(guò)NekoHTML來(lái)解析獲得去掉HTML標(biāo)簽的文章內(nèi)容.標(biāo)紅的地方就是用來(lái)設(shè)置字符集的,第一個(gè)是XML格式的字符集(似乎沒(méi)什么用),第二個(gè)地方是將字符串的內(nèi)容通過(guò)輸入流讀入,如果不指定的話在GAE中默認(rèn)的是ISO-8859-1(本地的話以設(shè)置的文件的字符類(lèi)型為主),第三個(gè)地方是設(shè)置XML解析器的字符集。昨晚就是第二個(gè)地方?jīng)]有設(shè)置,導(dǎo)致亂碼。在測(cè)試的過(guò)程中還學(xué)到一點(diǎn):GBK->ISO-8859-1 的過(guò)程是不可逆的,也就是說(shuō)如果把中文字符轉(zhuǎn)成了ISO-8859-1的話,就再也轉(zhuǎn)不過(guò)來(lái)了,中文變成了"????"。因此在保險(xiǎn)起見(jiàn),輸入輸出流在使用的時(shí)候最好都加上字符集。
閱讀全文