本文主要討論以下幾個(gè)部分:如何查看查詢oracle字符集、 修改設(shè)置字符集以及常見的oracle utf8字符集和oracle exp 字符集問題。

一、什么是Oracle字符集

       Oracle字符集是一個(gè)字節(jié)數(shù)據(jù)的解釋的符號集合,有大小之分,有相互的包容關(guān)系。ORACLE 支持國家語言的體系結(jié)構(gòu)允許你使用本地化語言來存儲(chǔ),處理,檢索數(shù)據(jù)。它使數(shù)據(jù)庫工具,錯(cuò)誤消息,排序次序,日期,時(shí)間,貨幣,數(shù)字,和日歷自動(dòng)適應(yīng)本地化語言和平臺。

 

影響Oracle數(shù)據(jù)庫字符集最重要的參數(shù)是NLS_LA息是中文還是英文

Territory: 指定服務(wù)器的日期和數(shù)字格式,

Charset:  指定字符集。

如:AMERICAN _ AMERICA. ZHS16GBK

從NLS_LANG的組成我們可以看出,真正影響數(shù)據(jù)庫字符集的其實(shí)是第三部分。

所以兩個(gè)數(shù)據(jù)庫之間的字符集只要第三部分一樣就可以相互導(dǎo)入導(dǎo)出數(shù)據(jù),前面影響的只是提示信息是中文還是英文。

怎么查看數(shù)據(jù)庫版本

select * from v$version   包含版本信息,核心版本信息,位數(shù)信息(32位或64位)等  至于位數(shù)信息,在Linux/unix平臺上,可以通過file查看,如file $ORACLE_HOME/bin/oracle

 

二、. 查看數(shù)據(jù)庫字符集

數(shù)據(jù)庫服務(wù)器字符集select * from nls_database_parameters,其來源于props$,是表示數(shù)據(jù)庫的字符集。
  
  客戶端字符集環(huán)境select * from nls_instance_parameters,其來源于v$parameter,
  
  表示客戶端的字符集的設(shè)置,可能是參數(shù)文件,環(huán)境變量或者是注冊表
  
  會(huì)話字符集環(huán)境 select * from nls_session_parameters,其來源于v$nls_parameters,表示會(huì)話自己的設(shè)置,可能是會(huì)話的環(huán)境變量或者是alter session完成,如果會(huì)話沒有特殊的設(shè)置,將與nls_instance_parameters一致。
  
  客戶端的字符集要求與服務(wù)器一致,才能正確顯示數(shù)據(jù)庫的非Ascii字符。如果多個(gè)設(shè)置存在的時(shí)候,alter session>環(huán)境變量>注冊表>參數(shù)文件
  
  字符集要求一致,但是語言設(shè)置卻可以不同,語言設(shè)置建議用英文。如字符集是zhs16gbk,則nls_lang可以是American_America.zhs16gbk。

涉及三方面的字符集,

1. oracel server端的字符集;

2. oracle client端的字符集;

3. dmp文件的字符集。

 

在做數(shù)據(jù)導(dǎo)入的時(shí)候,需要這三個(gè)字符集都一致才能正確導(dǎo)入。

 

2.1 查詢oracle server端的字符集

有很多種方法可以查出oracle server端的字符集,比較直觀的查詢方法是以下這種:

SQL> select userenv('language') from dual;

USERENV('LANGUAGE')

----------------------------------------------------

SIMPLIFIED CHINESE_CHINA.ZHS16GBK

 

SQL>select userenv(‘language’) from dual;

AMERICAN _ AMERICA. ZHS16GBK

 

2.2 如何查詢dmp文件的字符集

用oracle的exp工具導(dǎo)出的dmp文件也包含了字符集信息,dmp文件的第2和第3個(gè)字節(jié)記錄了dmp文件的字符集。如果dmp文件不大,比如只有幾M或幾十M,可以用UltraEdit打開(16進(jìn)制方式),看第2第3個(gè)字節(jié)的內(nèi)容,如0354,然后用以下SQL查出它對應(yīng)的字符集:

SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;

ZHS16GBK

 

如果dmp文件很大,比如有2G以上(這也是最常見的情況),用文本編輯器打開很慢或者完全打不開,可以用以下命令(在unix主機(jī)上):

cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6

然后用上述SQL也可以得到它對應(yīng)的字符集。

 

2.3 查詢oracle client端的字符集

在windows平臺下,就是注冊表里面相應(yīng)OracleHome的NLS_LANG。還可以在dos窗口里面自己設(shè)置,

比如: set nls_lang=AMERICAN_AMERICA.ZHS16GBK

這樣就只影響這個(gè)窗口里面的環(huán)境變量。

 

在unix平臺下,就是環(huán)境變量NLS_LANG。

$echo $NLS_LANG

AMERICAN_AMERICA.ZHS16GBK

 

如果檢查的結(jié)果發(fā)現(xiàn)server端與client端字符集不一致,請統(tǒng)一修改為同server端相同的字符集。

 

補(bǔ)充:

(1).數(shù)據(jù)庫服務(wù)器字符集

select * from nls_database_parameters

來源于props$,是表示數(shù)據(jù)庫的字符集。

 

(2).客戶端字符集環(huán)境

select * from nls_instance_parameters

其來源于v$parameter,表示客戶端的字符集的設(shè)置,可能是參數(shù)文件,環(huán)境變量或者是注冊表

 

(3).會(huì)話字符集環(huán)境

select * from nls_session_parameters

來源于v$nls_parameters,表示會(huì)話自己的設(shè)置,可能是會(huì)話的環(huán)境變量或者是alter session完成,如果會(huì)話沒有特殊的設(shè)置,將與nls_instance_parameters一致。

 

(4).客戶端的字符集要求與服務(wù)器一致,才能正確顯示數(shù)據(jù)庫的非Ascii字符。

如果多個(gè)設(shè)置存在的時(shí)候,NLS作用優(yōu)先級別:Sql function > alter session > 環(huán)境變量或注冊表 > 參數(shù)文件 > 數(shù)據(jù)庫默認(rèn)參數(shù)

 

字符集要求一致,但是語言設(shè)置卻可以不同,語言設(shè)置建議用英文。如字符集是zhs16gbk,則nls_lang可以是American_America.zhs16gbk。

 

 

三. 修改oracle的字符集

8i以上版本可以通過alter database來修改字符集,但也只限于子集到超集,不建議修改props$表,將可能導(dǎo)致嚴(yán)重錯(cuò)誤。
  
  Startup nomount;
  Alter database mount exclusive;
  Alter system enable restricted session;
  Alter system set job_queue_process=0;
  Alter database open;
  Alter database character set zhs16gbk;

按照上文所說,數(shù)據(jù)庫字符集在創(chuàng)建后原則上不能更改。因此,在設(shè)計(jì)和安裝之初考慮使用哪一種字符集十分重要。對數(shù)據(jù)庫server而言,錯(cuò)誤的修改字符集將會(huì)導(dǎo)致很多不可測的后果,可能會(huì)嚴(yán)重影響數(shù)據(jù)庫的正常運(yùn)行,所以在修改之前一定要確認(rèn)兩種字符集是否存在子集和超集的關(guān)系。一般來說,除非萬不得已,我們不建議修改oracle數(shù)據(jù)庫server端的字符集。特別說明,我們最常用的兩種字符集ZHS16GBK和ZHS16CGB231280之間不存在子集和超集關(guān)系,因此理論上講這兩種字符集之間的相互轉(zhuǎn)換不受支持。

 

不過修改字符集有2種方法可行。

1. 通常需要導(dǎo)出數(shù)據(jù)庫數(shù)據(jù),重建數(shù)據(jù)庫,再導(dǎo)入數(shù)據(jù)庫數(shù)據(jù)的方式來轉(zhuǎn)換。

2. 通過ALTER DATABASE CHARACTER SET語句修改字符集,但創(chuàng)建數(shù)據(jù)庫后修改字符集是有限制的,只有新的字符集是當(dāng)前字符集的超集時(shí)才能修改數(shù)據(jù)庫字符集,例如UTF8是US7ASCII的超集,修改數(shù)據(jù)庫字符集可使用ALTER DATABASE CHARACTER SET UTF8。
 

 

3.1 修改server端字符集(不建議使用)

 

1.       關(guān)閉數(shù)據(jù)庫

SQL>SHUTDOWN IMMEDIATE

 

2. 啟動(dòng)到Mount

SQL>STARTUP MOUNT;

SQL>ALTER SYSTEM ENABLE RESTRICTED SESSION;

SQL>ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;

SQL>ALTER SYSTEM SET AQ_TM_PROCESSES=0;

SQL>ALTER DATABASE OPEN;

--這里可以從父集到子集

SQL>ALTER DATABASE CHARACTER SET ZHS16GBK;

SQL>ALTER DATABASE NATIONAL CHARACTER SET AL16UTF16;

--如果是從子集到父集,需要使用INTERNAL_USE 參數(shù),跳過超子集檢測

SQL>ALTER DATABASE CHARACTER SET INTERNAL_USE AL32UTF8;

SQL>ALTER DATABASE NATIONAL CHARACTER SET INTERNAL_USE AL16UTF16;

 

SQL>SHUTDOWN IMMEDIATE;

SQL>STARTUP

注意:如果沒有大對象,在使用過程中進(jìn)行語言轉(zhuǎn)換沒有什么影響,(切記設(shè)定的字符集必須是ORACLE支持,不然不能start) 按上面的做法就可以。

 

若出現(xiàn)‘ORA-12717: Cannot ALTER DATABASE NATIONAL CHARACTER SET when NCLOB data exists’ 這樣的提示信息,

要解決這個(gè)問題有兩種方法

1. 利用INTERNAL_USE 關(guān)鍵字修改區(qū)域設(shè)置,

2. 利用re-create,但是re-create有點(diǎn)復(fù)雜,所以請用internal_use

 

SQL>SHUTDOWN IMMEDIATE;

SQL>STARTUP MOUNT EXCLUSIVE;

SQL>ALTER SYSTEM ENABLE RESTRICTED SESSION;

SQL>ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;

SQL>ALTER SYSTEM SET AQ_TM_PROCESSES=0;

SQL>ALTER DATABASE OPEN;

SQL>ALTER DATABASE NATIONAL CHARACTER SET INTERNAL_USE UTF8;

SQL>SHUTDOWN immediate;

SQL>startup;

如果按上面的做法做,National charset的區(qū)域設(shè)置就沒有問題

 

3.2 修改dmp文件字符集

上文說過,dmp文件的第2第3字節(jié)記錄了字符集信息,因此直接修改dmp文件的第2第3字節(jié)的內(nèi)容就可以‘騙’過oracle的檢查。這樣做理論上也僅是從子集到超集可以修改,但很多情況下在沒有子集和超集關(guān)系的情況下也可以修改,我們常用的一些字符集,如US7ASCII,WE8ISO8859P1,ZHS16CGB231280,ZHS16GBK基本都可以改。因?yàn)楦牡闹皇莇mp文件,所以影響不大。

 

具體的修改方法比較多,最簡單的就是直接用UltraEdit修改dmp文件的第2和第3個(gè)字節(jié)。

比如想將dmp文件的字符集改為ZHS16GBK,可以用以下SQL查出該種字符集對應(yīng)的16進(jìn)制代碼: SQL> select to_char(nls_charset_id('ZHS16GBK'), 'xxxx') from dual;

0354

然后將dmp文件的2、3字節(jié)修改為0354即可。

如果dmp文件很大,用ue無法打開,就需要用程序的方法了。

 

3.3客戶端字符集設(shè)置方法
     1)UNIX環(huán)境
         $NLS_LANG=“simplified chinese”_china.zhs16gbk
         $export NLS_LANG
         編輯oracle用戶的profile文件
    2)Windows環(huán)境
         編輯注冊表
         Regedit.exe ---》 HKEY_LOCAL_MACHINE ---》SOFTWARE ---》 ORACLE-HOME

  或者在窗口設(shè)置:

        set nls_lang=AMERICAN_AMERICA.ZHS16GBK

四.字符集的相關(guān)知識:

4.1 字符集
    實(shí)質(zhì)就是按照一定的字符編碼方案,對一組特定的符號,分別賦予不同數(shù)值編碼的集合。Oracle數(shù)據(jù)庫最早支持的編碼方案是US7ASCII。
    Oracle的字符集命名遵循以下命名規(guī)則:
    <Language><bit size><encoding>
    即: <語言><比特位數(shù)><編碼>
    比如: ZHS16GBK表示采用GBK編碼格式、16位(兩個(gè)字節(jié))簡體中文字符集 
 
4.2 字符編碼方案


4.2.1 單字節(jié)編碼
    (1)單字節(jié)7位字符集,可以定義128個(gè)字符,最常用的字符集為US7ASCII
    (2)單字節(jié)8位字符集,可以定義256個(gè)字符,適合于歐洲大部分國家
             例如:WE8ISO8859P1(西歐、8位、ISO標(biāo)準(zhǔn)8859P1編碼)

 

4.2.2 多字節(jié)編碼
    (1)變長多字節(jié)編碼
    某些字符用一個(gè)字節(jié)表示,其它字符用兩個(gè)或多個(gè)字符表示,變長多字節(jié)編碼常用于對亞洲語言的支持,   例如日語、漢語、印地語等
    例如:AL32UTF8(其中AL代表ALL,指適用于所有語言)、zhs16cgb231280
    (2)定長多字節(jié)編碼
    每一個(gè)字符都使用固定長度字節(jié)的編碼方案,目前oracle唯一支持的定長多字節(jié)編碼是AF16UTF16,也是僅用于國家字符集

4.2.3 unicode編碼
    Unicode是一個(gè)涵蓋了目前全世界使用的所有已知字符的單一編碼方案,也就是說Unicode為每一個(gè)字符提供唯一的編碼。UTF-16是unicode的16位編碼方式,是一種定長多字節(jié)編碼,用2個(gè)字節(jié)表示一個(gè)unicode字符,AF16UTF16是UTF-16編碼字符集。
    UTF-8是unicode的8位編碼方式,是一種變長多字節(jié)編碼,這種編碼可以用1、2、3個(gè)字節(jié)表示一個(gè)unicode字符,AL32UTF8,UTF8、UTFE是UTF-8編碼字符集 
 
4.3 字符集超級
    當(dāng)一種字符集(字符集A)的編碼數(shù)值包含所有另一種字符集(字符集B)的編碼數(shù)值,并且兩種字符集相同編碼數(shù)值代表相同的字符時(shí),則字符集A是字符集B的超級,或稱字符集B是字符集A的子集。
    Oracle8i和oracle9i官方文檔資料中備有子集-超級對照表(subset-superset pairs),例如:WE8ISO8859P1是WE8MSWIN1252的子集。由于US7ASCII是最早的Oracle數(shù)據(jù)庫編碼格式,因此有許多字符集是US7ASCII的超集,例如WE8ISO8859P1、ZHS16CGB231280、ZHS16GBK都是US7ASCII的超集。 
 
4.4 數(shù)據(jù)庫字符集(oracle服務(wù)器端字符集)
    數(shù)據(jù)庫字符集在創(chuàng)建數(shù)據(jù)庫時(shí)指定,在創(chuàng)建后通常不能更改。在創(chuàng)建數(shù)據(jù)庫時(shí),可以指定字符集(CHARACTER SET)和國家字符集(NATIONAL CHARACTER SET)。

 

4.4.1字符集
    (1)用來存儲(chǔ)CHAR, VARCHAR2, CLOB, LONG等類型數(shù)據(jù)
    (2)用來標(biāo)示諸如表名、列名以及PL/SQL變量等
    (3)用來存儲(chǔ)SQL和PL/SQL程序單元等

 

4.4.2國家字符集:
    (1)用以存儲(chǔ)NCHAR, NVARCHAR2, NCLOB等類型數(shù)據(jù)
    (2)國家字符集實(shí)質(zhì)上是為oracle選擇的附加字符集,主要作用是為了增強(qiáng)oracle的字符處理能力,因?yàn)镹CHAR數(shù)據(jù)類型可以提供對亞洲使用定長多字節(jié)編碼的支持,而數(shù)據(jù)庫字符集則不能。國家字符集在oracle9i中進(jìn)行了重新定義,只能在unicode編碼中的AF16UTF16和UTF8中選擇,默認(rèn)值是AF16UTF16

 

4.4.3查詢字符集參數(shù)
    可以查詢以下數(shù)據(jù)字典或視圖查看字符集設(shè)置情況
    nls_database_parameters、props$、v$nls_parameters
    查詢結(jié)果中NLS_CHARACTERSET表示字符集,NLS_NCHAR_CHARACTERSET表示國家字符集

 

4.4.4修改數(shù)據(jù)庫字符集
    按照上文所說,數(shù)據(jù)庫字符集在創(chuàng)建后原則上不能更改。不過有2種方法可行。

 

1. 如果需要修改字符集,通常需要導(dǎo)出數(shù)據(jù)庫數(shù)據(jù),重建數(shù)據(jù)庫,再導(dǎo)入數(shù)據(jù)庫數(shù)據(jù)的方式來轉(zhuǎn)換。

2. 通過ALTER DATABASE CHARACTER SET語句修改字符集,但創(chuàng)建數(shù)據(jù)庫后修改字符集是有限制的,只有新的字符集是當(dāng)前字符集的超集時(shí)才能修改數(shù)據(jù)庫字符集,例如UTF8是US7ASCII的超集,修改數(shù)據(jù)庫字符集可使用ALTER DATABASE CHARACTER SET UTF8。 
 
4.5 客戶端字符集(NLS_LANG參數(shù))


4.5.1客戶端字符集含義
    客戶端字符集定義了客戶端字符數(shù)據(jù)的編碼方式,任何發(fā)自或發(fā)往客戶端的字符數(shù)據(jù)均使用客戶端定義的字符集編碼,客戶端可以看作是能與數(shù)據(jù)庫直接連接的各種應(yīng)用,例如sqlplus,exp/imp等。客戶端字符集是通過設(shè)置NLS_LANG參數(shù)來設(shè)定的。

 

4.5.2 NLS_LANG參數(shù)格式
    NLS_LANG=<language>_<territory>.<client character set>
    Language: 顯示oracle消息,校驗(yàn),日期命名
    Territory:指定默認(rèn)日期、數(shù)字、貨幣等格式
    Client character set:指定客戶端將使用的字符集
    例如:NLS_LANG=AMERICAN_AMERICA.US7ASCII
    AMERICAN是語言,AMERICA是地區(qū),US7ASCII是客戶端字符集

 

4.5.3客戶端字符集設(shè)置方法
     1)UNIX環(huán)境
         $NLS_LANG=“simplified chinese”_china.zhs16gbk
         $export NLS_LANG
         編輯oracle用戶的profile文件
    2)Windows環(huán)境
         編輯注冊表
         Regedit.exe ---》 HKEY_LOCAL_MACHINE ---》SOFTWARE ---》 ORACLE-HOME

 

4.5.4 NLS參數(shù)查詢
    Oracle提供若干NLS參數(shù)定制數(shù)據(jù)庫和用戶機(jī)以適應(yīng)本地格式,例如有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,可以通過查詢以下數(shù)據(jù)字典或v$視圖查看。
NLS_DATABASE_PARAMETERS:顯示數(shù)據(jù)庫當(dāng)前NLS參數(shù)取值,包括數(shù)據(jù)庫字符集取值
NLS_SESSION_PARAMETERS:  顯示由NLS_LANG 設(shè)置的參數(shù),或經(jīng)過alter session 改變后的參數(shù)值(不包括由NLS_LANG 設(shè)置的客戶端字符集)
NLS_INSTANCE_PARAMETE: 顯示由參數(shù)文件init<SID>.ora 定義的參數(shù)

V$NLS_PARAMETERS:顯示數(shù)據(jù)庫當(dāng)前NLS參數(shù)取值

 

4.5.5修改NLS參數(shù)
    使用下列方法可以修改NLS參數(shù)
    (1)修改實(shí)例啟動(dòng)時(shí)使用的初始化參數(shù)文件
    (2)修改環(huán)境變量NLS_LANG
    (3)使用ALTER SESSION語句,在oracle會(huì)話中修改
    (4)使用某些SQL函數(shù)
    NLS作用優(yōu)先級別:Sql function > alter session > 環(huán)境變量或注冊表 > 參數(shù)文件 > 數(shù)據(jù)庫默認(rèn)參數(shù)

 

五.EXP/IMP 與 字符集

5.1 EXP/IMP
    Export 和 Import 是一對讀寫Oracle數(shù)據(jù)的工具。Export 將 Oracle 數(shù)據(jù)庫中的數(shù)據(jù)輸出到操作系統(tǒng)文件中, Import 把這些文件中的數(shù)據(jù)讀到Oracle 數(shù)據(jù)庫中,由于使用exp/imp進(jìn)行數(shù)據(jù)遷移時(shí),數(shù)據(jù)從源數(shù)據(jù)庫到目標(biāo)數(shù)據(jù)庫的過程中有四個(gè)環(huán)節(jié)涉及到字符集,如果這四個(gè)環(huán)節(jié)的字符集不一致,將會(huì)發(fā)生字符集轉(zhuǎn)換。
EXP
     ____________ _________________ _____________
     |imp導(dǎo)入文件|<-|環(huán)境變量NLS_LANG|<-|數(shù)據(jù)庫字符集|
      ------------   -----------------   -------------

IMP
     ____________ _________________ _____________
     |imp導(dǎo)入文件|->|環(huán)境變量NLS_LANG|->|數(shù)據(jù)庫字符集|
      ------------   -----------------   -------------

 

 

四個(gè)字符集是
   (1)源數(shù)據(jù)庫字符集
   (2)Export過程中用戶會(huì)話字符集(通過NLS_LANG設(shè)定)
   (3)Import過程中用戶會(huì)話字符集(通過NLS_LANG設(shè)定)
   (4)目標(biāo)數(shù)據(jù)庫字符集 
 
5.2導(dǎo)出的轉(zhuǎn)換過程
    在Export過程中,如果源數(shù)據(jù)庫字符集與Export用戶會(huì)話字符集不一致,會(huì)發(fā)生字符集轉(zhuǎn)換,并在導(dǎo)出文件的頭部幾個(gè)字節(jié)中存儲(chǔ)Export用戶會(huì)話字符集的ID號。在這個(gè)轉(zhuǎn)換過程中可能發(fā)生數(shù)據(jù)的丟失。


例:如果源數(shù)據(jù)庫使用ZHS16GBK,而Export用戶會(huì)話字符集使用US7ASCII,由于ZHS16GBK是16位字符集,而US7ASCII是7位字符集,這個(gè)轉(zhuǎn)換過程中,中文字符在US7ASCII中不能夠找到對等的字符,所以所有中文字符都會(huì)丟失而變成“?? ”形式,這樣轉(zhuǎn)換后生成的Dmp文件已經(jīng)發(fā)生了數(shù)據(jù)丟失。
因此如果想正確導(dǎo)出源數(shù)據(jù)庫數(shù)據(jù),則Export過程中用戶會(huì)話字符集應(yīng)等于源數(shù)據(jù)庫字符集或是源數(shù)據(jù)庫字符集的超集 
 
5.3導(dǎo)入的轉(zhuǎn)換過程
    (1)確定導(dǎo)出數(shù)據(jù)庫字符集環(huán)境
             通過讀取導(dǎo)出文件頭,可以獲得導(dǎo)出文件的字符集設(shè)置
    (2)確定導(dǎo)入session的字符集,即導(dǎo)入Session使用的NLS_LANG環(huán)境變量
    (3)IMP讀取導(dǎo)出文件
             讀取導(dǎo)出文件字符集ID,和導(dǎo)入進(jìn)程的NLS_LANG進(jìn)行比較
    (4)如果導(dǎo)出文件字符集和導(dǎo)入Session字符集相同,那么在這一步驟內(nèi)就不需要轉(zhuǎn)換,             如果不同,就需要把數(shù)據(jù)轉(zhuǎn)換為導(dǎo)入Session使用的字符集。可以看出,導(dǎo)入數(shù)據(jù)到數(shù)據(jù)庫過程中發(fā)生兩次字符集轉(zhuǎn)換


    第一次:導(dǎo)入文件字符集與導(dǎo)入Session使用的字符集之間的轉(zhuǎn)換,如果這個(gè)轉(zhuǎn)換過程不能正確完成,Import向目標(biāo)數(shù)據(jù)庫的導(dǎo)入過程也就不能完成。
    第二次:導(dǎo)入Session字符集與數(shù)據(jù)庫字符集之間的轉(zhuǎn)換。