<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-16  評論-50  文章-2  trackbacks-0

    摘要:在Java中,對一個數組或列表(在本文中統稱為集合)中的元素排序,是一個很經常的事情。好在Sun公司在Java庫中實現了大部分功能。如果集合中的元素實現了Comparable接口,調用Array或Collections的靜態(static)方法sort,就可以直接對集合排序。程序員用不同的方式實現了Comparator接口,就可以用各自不同的方式排序。對于包含漢字的字符串來說,排序的方式主要有兩種:一種是拼音,一種是筆畫。本文就講述如何實現這兩種不同的比較器(Comparator)。


    作者:Jeff 發表于:2007年12月21日 11:27 最后更新于: 2007年12月21日 12:38
    版權聲明:可以任意轉載,轉載時請務必以超鏈接形式標明文章原始出處和作者信息及本版權聲明
    http://m.tkk7.com/jeff-lau/archive/2007/12/21/169257.html


    排序概述

    在Java中,對一個數組或列表(在本文中統稱為集合)中的元素排序,是一個很經常的事情。好在Sun公司在Java庫中實現了大部分功能。如果集合中的元素實現了Comparable接口,調用以下的靜態(static)方法,就可以直接對集合排序。

    // 數組排序方法
    // 數組中的元素可以是像int這樣的原生類型(primitive type), 也可以是像String這樣實現了Comparable接口的類型,這里用type表示。
    java.util.Arrays.sort(type[] a);

    // 列表
    public static <T> void sort(List<T> list)

    以上的這些排序方式能滿足大部分應用。但集合中的元素沒有實現Comparable接口,或者集合中的元素要按一種特別的方式排序,這要怎么辦?Sun公司早就想到了,并在Java庫中提供上面兩個方法的重載。

    // 數組排序方法。
    // 數組中的元素可以是像int這樣的原生類型(primitive type), 也可以是像String這樣實現了Comparable接口的類型,這里用type表示。
    public static <T> void sort(T[] a, Comparator<? super T> c)

    // 列表
    public static <T> void sort(List<T> list, Comparator<? super T> c)

    只要實現了Comparator接口,就可以按程序員自己的意思去排序了。對于包含漢字的字符串來說,排序的方式主要有兩種:一種是拼音,一種是筆畫。漢字是通過一定的編碼方式存儲在計算機上的,主要的編碼有:Unicdoe、GB2312和GBK等。

    Unicode 編碼中的漢字

    Unicode中編碼表分為兩塊,一個是基本的,一個是輔助的。現在的大多數操作系統還不支持Unicode中輔助區域中的文字,如WinXp。

    在Java中的字符就是Unicode碼表示的。對于Unicode基本區域中的文字,用兩個字節的內存存儲,用一個char表示,而輔助區域中的文字用4個字節存儲,因此輔助區域中的就要用兩個char來表示了(表一種藍色底就是輔助區域中的文字)。一個文字的unicode編碼,在Java中統一用codePoint(代碼點)這個概念。

    中文和日文、韓文一樣是表意文字,在Unicode中,中日韓三國(東亞地區)的文字是統一編碼的。CJK代表的就是中日韓。在這里,我把這3中文字,都作為漢字處理了。(日語和韓語可能就是從漢語中衍生的吧!)

    漢字在Unicode中的分布大致如下表:

      首字編碼 尾字編碼 個數
    基本漢字 U4E00 U9FBF 20928
    異性字 UF900 UFAFF 512
    擴展A U3400 U4D8F 512
    擴展B U20000 U2A6DF 42720
    補充 U2F800 U2FA1F 544
    其他     ...
    表一

    在這些編碼區間,有些編碼是保留的。

    GB2312編碼

    GB2312是中華人民共和國最早的計算機漢字編碼方式。大概有6000多個漢字,這些漢字是按拼音順序編碼的。這6000多個漢字都是簡體中文字。

    GBK編碼

    GB2312的擴展,并兼容GB2312。擴展后的漢字大概有2萬多個,其中有簡體漢字也有繁體漢字。

    拼音排序

    拼音有好幾種方式,其中最主要的是中華人民共和國的漢語拼音 Chinese Phonetic。對漢字的排序有兩種:一種是寬松的,能夠按拼音排序最常用的漢字,另一種是嚴格的,能夠按拼音排序絕大部分大部分漢字。

    寬松的拼音排序法

    原理:漢字最早是GB2312編碼,收錄了六千多個漢字,是按拼音排序的,編碼是連續的。 后來出現了GBK編碼,對GB2312進行了擴展,到了兩萬多漢字,并且兼容GB2312,也就是說GB2312中的漢字編碼是原封不動搬到GBK中的(在GBK編碼中[B0-D7]區中)。

    如果我們只關心這6000多個漢字的順序,就可以用下面的方法實現漢字寬松排序。

    /**
    * @author Jeff
    *
    * Copyright (c) 復制或轉載本文,請保留該注釋。
    */

    package chinese.utility;

    import java.text.Collator;
    import java.util.Comparator;
    import java.util.Locale;

    public class PinyinSimpleComparator implements Comparator<String> {
        public int compare(String o1, String o2) {
            return Collator.getInstance(Locale.CHINESE).compare(o1, o2);
        }
    }

    在對[孫, 孟, 宋, 尹, 廖, 張, 徐, 昆, 曹, 曾,怡]這幾個漢字排序,結果是:[曹, 昆, 廖, 孟, 宋, 孫, 徐, 尹, 曾, 張, 怡]。最后一個 有問題,不該排在最后的。

    注意:這個程序有兩個不足

    • 由于gb2312中的漢字編碼是連續的,因此新增加的漢字不可能再按照拼音順序插入到已有的gb2312編碼中,所以新增加的漢字不是按拼音順序排的。
    • 同音字比較的結果不等于0 。

    下面的測試代碼可以證明

    /**
    * @author Jeff
    *
    * Copyright (c) 復制或轉載本文,請保留該注釋。
    */

    /**
    * 非常用字(怡)
    */
    @Test
    public void testNoneCommon() {
        Assert.assertTrue(comparator.compare("怡", "張") > 0);
    }

    /**
    * 同音字
    */
    @Test
    public void testSameSound() {
        Assert.assertTrue(comparator.compare("怕", "帕") != 0);
    }

    嚴格的拼音排序法

    為了解決寬松的拼音的兩點不足,可以通過實現漢語拼音的函數來解決。goolge下看到sf上有個pinyin4j的項目,可以解決這個問題,pinyin4j的項目地址是:http://pinyin4j.sourceforge.net/

    實現代碼:

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility;

    import java.util.Comparator;
    import net.sourceforge.pinyin4j.PinyinHelper;

    public class PinyinComparator implements Comparator<String> {

        public int compare(String o1, String o2) {

            for (int i = 0; i < o1.length() && i < o2.length(); i++) {

                int codePoint1 = o1.charAt(i);
                int codePoint2 = o2.charAt(i);

                if (Character.isSupplementaryCodePoint(codePoint1)
                        || Character.isSupplementaryCodePoint(codePoint2)) {
                    i++;
                }

                if (codePoint1 != codePoint2) {
                    if (Character.isSupplementaryCodePoint(codePoint1)
                            || Character.isSupplementaryCodePoint(codePoint2)) {
                        return codePoint1 - codePoint2;
                    }

                    String pinyin1 = pinyin((char) codePoint1);
                    String pinyin2 = pinyin((char) codePoint2);

                    if (pinyin1 != null && pinyin2 != null) { // 兩個字符都是漢字
                        if (!pinyin1.equals(pinyin2)) {
                            return pinyin1.compareTo(pinyin2);
                        }
                    } else {
                        return codePoint1 - codePoint2;
                    }
                }
            }
            return o1.length() - o2.length();
        }

        /**
         * 字符的拼音,多音字就得到第一個拼音。不是漢字,就return null。
         */
        private String pinyin(char c) {
            String[] pinyins = PinyinHelper.toHanyuPinyinStringArray(c);
            if (pinyins == null) {
                return null;
            }
            return pinyins[0];
        }
    }

    測試:

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.test;

    import java.util.Comparator;

    import org.junit.Assert;
    import org.junit.Test;

    import chinese.utility.PinyinComparator;

    public class PinyinComparatorTest {

        private Comparator<String> comparator = new PinyinComparator();

        /**
         * 常用字
         */
        @Test
        public void testCommon() {
            Assert.assertTrue(comparator.compare("孟", "宋") < 0);
        }

        /**
         * 不同長度
         */
        @Test
        public void testDifferentLength() {
            Assert.assertTrue(comparator.compare("他奶奶的", "他奶奶的熊") < 0);
        }

        /**
         * 和非漢字比較
         */
        @Test
        public void testNoneChinese() {
            Assert.assertTrue(comparator.compare("a", "阿") < 0);
            Assert.assertTrue(comparator.compare("1", "阿") < 0);
        }

        /**
         * 非常用字(怡)
         */
        @Test
        public void testNoneCommon() {
            Assert.assertTrue(comparator.compare("怡", "張") < 0);
        }

        /**
         * 同音字
         */
        @Test
        public void testSameSound() {
            Assert.assertTrue(comparator.compare("怕", "帕") == 0);
        }

        /**
         * 多音字(曾)
         */
        @Test
        public void testMultiSound() {
            Assert.assertTrue(comparator.compare("曾經", "曾迪") > 0);
        }

    }

    我的這樣嚴格的拼音排序還是有有待改進的地方,看上面測試代碼的最后一個測試,就會發現:程序不會根據語境來判斷多音字的拼音,僅僅是簡單的取多音字的第一個拼音。

    筆畫排序

    要按筆畫排序,就要實現筆畫比較器。

    class StokeComparator implements Comparator<String>

    如果有個方法可以求得漢字的筆畫數,上面的功能就很容易實現。如何求一個漢字的筆畫數?最容易想到的就是查表法。建一個漢字筆畫數表,如:

    漢字 Unicode編碼 筆畫數
    U4E00 1
    U4E8C 2
    U9F8D 16
    ... ... ...
    表二

    如果是連續的、按unicode編碼排好順序的表,實際存儲在筆畫數表中的只需最后一列就夠了。

    那如何建這個表呢?這個表存儲在哪里?

    建漢字筆畫數表

    現在大多數系統還只能支持Unicode中的基本漢字那部分漢字,編碼從U9FA6-U9FBF。所以我們只建這部分漢字的筆畫表。漢字筆畫數表,我們可以按照下面的方法生成:

    1. 用java程序生成一個文本文件(Chinese.csv)。包括所有的從U9FA6-U9FBF的字符的編碼和文字。利用excel的按筆畫排序功能,對Chinese.csv文件中的內容排序。
    2. 編寫Java程序分析Chinese.csv文件,求得筆畫數, 生成ChineseStroke.csv。矯正筆畫數,重新按漢字的Unicode編碼對ChineseStroke.csv文件排序。
    3. 只保留ChineseStroke.csv文件的最后一列,生成Stroke.csv。

    在這里下載上面3個步驟生成的3個文件

    生成Chinese.csv的Java程序

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.preface;

    import java.io.IOException;
    import java.io.PrintWriter;

    public class ChineseCoder {

        public static void main(String[] args) throws IOException {
            PrintWriter out = new PrintWriter("Chinese.csv");
            // 基本漢字
            for(char c = 0x4E00; c <= 0x9FA5; c++) {
                out.println((int)c + "," + c);
            }
            out.flush();
            out.close();

        }

    }

    初始化筆畫數

    從Excel排序過后的Chinese.csv文件來看,排好序的文件還是有一定規律的。在文件的第9行-12行可以看出:逐行掃描的時候,當unicode會變小了,筆畫數也就加1。

    20059,乛
    20101,亅
    19969,丁
    19970,丂

    用下面的Java程序分析吧。

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.preface;

    import java.io.File;
    import java.io.IOException;
    import java.io.PrintWriter;
    import java.util.Scanner;

    public class Stroke {

        /**
         * @param args
         * @throws IOException
         */
        public static void main(String[] args) throws IOException {
            Scanner in = new Scanner(new File("Chinese.csv"));       
            PrintWriter out = new PrintWriter("ChineseStroke.csv");
            String oldLine = "999999";
            int stroke = 0;
            while (in.hasNextLine()) {
                String line = in.nextLine();
                if (line.compareTo(oldLine) < 0) {
                    stroke++;               
                }
                oldLine = line;
                out.println(line + "," + stroke);           
            }
            out.flush();
            out.close();
            in.close();
        }

    }

    上面用的這個規律有問題嗎?有問題,從ChineseStroke.csv文件抽取最后幾個漢字就發現,筆畫數不對。為什么呢?

    • 筆畫數可能不是連續的。
    • n+1筆畫數的最小Unicode碼可能比n筆畫數的最大Unicode碼要大

    我們要人工核對ChineseStroke文件,但只要核對在筆畫變化的那幾個漢字的筆畫數。最后,我發現,只有筆畫數多于30的少數幾個漢字的筆畫數不對。核對并矯正筆畫數后,用Excel按Unicode重新排序,去掉漢字和Unicode兩列,只保留筆畫數那列,得到Stroke.csv文件。

    求得筆畫數的方法和筆畫比較器方法

    求得筆畫數的方法測試代碼:

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.test;

    import static org.junit.Assert.assertEquals;

    import org.junit.Before;
    import org.junit.Test;
    import chinese.utility.Chinese;

    public class StrokeTest {

        Chinese chinese;

        @Before
        public void setUp() {
            chinese = new Chinese();
        }

        @Test
        public void testStroke() {
            assertEquals(1, chinese.stroke('一'));
        }

        @Test
        public void testStroke2() {
            assertEquals(2, chinese.stroke('二'));
        }

        @Test
        public void testStroke16() {
            assertEquals(16, chinese.stroke('龍'));
        }

        @Test
        public void testStrokeABC() {
            assertEquals(-1, chinese.stroke('a'));
        }

    }

    求得筆畫數的方法代碼

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility;

    import java.util.Comparator;

    public class StrokeComparator implements Comparator<String> {

        public int compare(String o1, String o2) {

            Chinese chinese = new Chinese();

            for (int i = 0; i < o1.length() && i < o2.length(); i++) {
                int codePoint1 = o1.codePointAt(i);
                int codePoint2 = o2.codePointAt(i);
                if (codePoint1 == codePoint2)
                    continue;

                int stroke1 = chinese.stroke(codePoint1);
                int stroke2 = chinese.stroke(codePoint2);

                if (stroke1 < 0 || stroke2 < 0) {
                    return codePoint1 - codePoint2;
                }

                if (stroke1 != stroke2) {
                    return stroke1 - stroke2;
                }
            }

            return o1.length() - o2.length();
        }
    }

    筆畫比較器測試

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.test;

    import java.util.Comparator;

    import org.junit.Assert;
    import org.junit.Before;
    import org.junit.Test;

    import chinese.utility.StrokeComparator;

    public class StrokeComparatorTest {

        private Comparator<String> comparator;
        @Before
        public void setUp() {
            comparator = new StrokeComparator();
        }

        /**
         * 相同筆畫數
         */
        @Test
        public void testCompareEquals() {
            Assert.assertTrue(comparator.compare("一", "丨") == 0);
        }
        /**
         * 不同筆畫數
         */
        @Test
        public void testCompare() {
            Assert.assertTrue(comparator.compare("一", "二") < 0);
            Assert.assertTrue(comparator.compare("唔", "馬") > 0);
        }
        /**
         * 長度不同
         */
        @Test
        public void testCompareDefficultLength() {
            Assert.assertTrue(comparator.compare("二", "二一") < 0);
        }
        /**
         * 非漢字的比較
         */
        @Test
        public void testABC() {
            Assert.assertTrue(comparator.compare("一", "a") > 0);
            Assert.assertTrue(comparator.compare("a", "b") < 0);       
        }
    }

    筆畫比較器

    /**
      * @author Jeff
      *
      * Copyright (c) 復制或轉載本文,請保留該注釋。
      */
    package chinese.utility.test;

    import java.util.Comparator;

    import org.junit.Assert;
    import org.junit.Before;
    import org.junit.Test;

    import chinese.utility.StrokeComparator;

    public class StrokeComparatorTest {

        private Comparator<String> comparator;
        @Before
        public void setUp() {
            comparator = new StrokeComparator();
        }

        /**
         * 相同筆畫數
         */
        @Test
        public void testCompareEquals() {
            Assert.assertTrue(comparator.compare("一", "丨") == 0);
        }
        /**
         * 不同筆畫數
         */
        @Test
        public void testCompare() {
            Assert.assertTrue(comparator.compare("一", "二") < 0);
            Assert.assertTrue(comparator.compare("唔", "馬") > 0);
        }
        /**
         * 長度不同
         */
        @Test
        public void testCompareDefficultLength() {
            Assert.assertTrue(comparator.compare("二", "二一") < 0);
        }
        /**
         * 非漢字的比較
         */
        @Test
        public void testABC() {
            Assert.assertTrue(comparator.compare("一", "a") > 0);
            Assert.assertTrue(comparator.compare("a", "b") < 0);       
        }
    }

    其他程序的漢字排序

    Microsoft在這方面做得比較好。如Sql server 2000,Word和Excel都能按拼音和筆畫排序。而Oracle只能是采取寬松拼音排序法。

    posted on 2007-12-21 11:29 Jeff Lau 閱讀(11903) 評論(10)  編輯  收藏 所屬分類: 跟老劉學Java

    評論:
    # re: 中文排序 2007-12-21 12:42 | sitinspring
    好文章!  回復  更多評論
      
    # re: 中文排序 2007-12-23 10:47 | ci
    好.........  回復  更多評論
      
    # re: 中文排序 2008-01-03 18:52 | hill911
    好文章
    值得研究  回復  更多評論
      
    # re: 中文排序 2008-08-12 17:35 | vv0885
    長知識,謝謝前輩!

    但是我沒有找到Chinese這個類!  回復  更多評論
      
    # re: 中文排序 2008-12-02 11:48 | Arix
    筆畫排序的資料幫了很大的忙,感謝。  回復  更多評論
      
    # re: 中文排序 2011-01-10 09:52 | 唐永軍
    謝謝。學習了。
      回復  更多評論
      
    # re: 中文排序 2011-08-01 22:59 | 徐冬冬
    很不錯 值得 一看   回復  更多評論
      
    # re: 中文排序[未登錄] 2011-10-19 12:59 | xx
    @vv0885
    人家這個類是在下載那個sourceforge中的jar包的哦。  回復  更多評論
      
    # re: 中文排序[未登錄] 2011-11-07 17:36 | andy
    效率很低啊,怎么辦呢  回復  更多評論
      
    # re: 中文排序 2013-02-21 16:57 | zhenshao
    chinese 類貌似找不到呢,在線等.....  回復  更多評論
      
    主站蜘蛛池模板: 亚洲国产综合专区在线电影| 久久亚洲综合色一区二区三区| 亚洲嫩草影院在线观看| 久99久精品免费视频热77| 亚洲热线99精品视频| 中文字幕免费观看全部电影| 亚洲一区二区三区无码影院| 一级美国片免费看| 国产偷窥女洗浴在线观看亚洲 | 亚洲av乱码一区二区三区香蕉 | 99爱在线精品免费观看| 亚洲第一中文字幕| 精品久久8x国产免费观看| 亚洲一区二区三区不卡在线播放| 日韩欧毛片免费视频| 亚洲欧美精品午睡沙发| 亚洲国产成人久久精品99 | 1000部拍拍拍18勿入免费视频下载| 亚洲AV综合色区无码一区爱AV | 成年大片免费视频| 另类图片亚洲校园小说区| 亚洲日本中文字幕一区二区三区| 久久www免费人成精品香蕉| 亚洲免费在线播放| 成人免费毛片内射美女-百度| 精品亚洲av无码一区二区柚蜜| 亚洲国产精品成人一区| 免费在线中文日本| 香蕉大伊亚洲人在线观看| 免费成人黄色大片| 日本高清免费观看| 亚洲欧美日韩综合俺去了| 不卡精品国产_亚洲人成在线| 最近免费最新高清中文字幕韩国| 亚洲一卡一卡二新区无人区| 国产成人高清亚洲| 国产成人福利免费视频| 一本久久免费视频| 亚洲影视自拍揄拍愉拍| 久久精品国产亚洲精品| 免费看又黄又无码的网站|