隨筆檔案

2009年11月 (2)

文章檔案

2006年11月 (1)

搜索

閱讀排行榜

評論排行榜

2009年11月3日

亂碼問題總算解決了

亂碼問題總算解決了。

下面這段代碼用來獲取文章內容，并通過NekoHTML來解析獲得去掉HTML標簽的文章內容.標紅的地方就是用來設置字符集的，第一個是XML格式的字符集（似乎沒什么用），第二個地方是將字符串的內容通過輸入流讀入，如果不指定的話在GAE中默認的是ISO-8859-1（本地的話以設置的文件的字符類型為主），第三個地方是設置XML解析器的字符集。昨晚就是第二個地方沒有設置，導致亂碼。在測試的過程中還學到一點：GBK->ISO-8859-1 的過程是不可逆的，也就是說如果把中文字符轉成了ISO-8859-1的話，就再也轉不過來了，中文變成了"????"。因此在保險起見，輸入輸出流在使用的時候最好都加上字符集。

1     public String getContent(String xwnr) throws Exception {
2         String xml = "<?xml version=\"1.0\" encoding=\"UTF-8\"?><content>" + xwnr + "</content>";
3         DOMFragmentParser parser = new DOMFragmentParser();
4         DocumentFragment node = new HTMLDocumentImpl().createDocumentFragment();
5
6         InputStream is = new ByteArrayInputStream(xml.getBytes("UTF-8"));
7
8         InputSource input = new InputSource(is);
9         input.setEncoding("UTF-8");
10         try {
11             parser.parse(input, node);
12         } catch (IOException e) {
13             e.printStackTrace();
14         } catch (SAXException se) {
15             se.printStackTrace();
16         }
17         StringBuffer newContent = new StringBuffer();
18         this.getText(newContent, node);
19
20         /*String str  =  ( new  String(
21                 newContent.toString().getBytes("Windows-1252"),  "UTF-8" ));*/
22
23         String str = newContent.toString();
24
25         if (str.length()>200){
26             return str.substring(0,200);
27         }else{
28             return str;
29         }
30     }

今天受到了不少關注，非常高興，非常感謝支持我的同學們，我會慢慢的將開發的過程寫出來與大家分享。亂碼問題總算解決了。

posted @ 2009-11-04 01:29 漁人閱讀(582) | 評論 (0) | 編輯收藏

提交了一個GAE應用

昨天晚上提交了一個簡單的Google Application Engine 應用，是一個簡單的網絡日志功能。
目前提供的功能有發表日志，查看日志，發表評論的功能，其他的功能打算有空的時候慢慢開發。
該應用程序沒有用流行的框架，是我自己拾掇的一個框架，七拼八湊，不過感覺開發還是比較方便，畢竟是自己寫的，有什么問題也可以直接找到原因。前臺用的是Velocity，一直對這個很感興趣，感覺小巧方便，語法也比較好理解。一直不怎么喜歡Struts，感覺比較笨重。
中間層用了guice，主要喜歡它的非配置，并趕一下時髦。數據庫層就是用GAE支持的JDO。還用了nekoHTML等工具用來解析文章內容等。
主要是寫著玩玩，再體驗一下Java的開發。有空把開發應用的過程寫一下，中間犯的一些錯誤，我覺得對開發GAE項目的同學可能還是有點幫助的。
應用還沒最終結束，我只是每天下班回來寫寫。

歡迎訪問：http://qigaozhen.appspot.com/pages/blog.wf

今天首頁上有亂碼，應該是我在用nekoHtml解析的時候，沒有設置對字符集，明天有空解決。

posted @ 2009-11-03 00:44 漁人閱讀(1763) | 評論 (8) | 編輯收藏

常用鏈接

留言簿

隨筆檔案

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜