前不久,一個IBM面試題的帖子引發了很多關于創建String對象過程中的內存分配的討論,既然大家對這個問題這么感興趣,那么這篇帖子就通過深入Java虛擬機(JVM)解讀其內部指令流程,來分析創建String對象的幾種情況下的內存分配過程。
先來了解一下JVM運行時數據區的內存模型。
《深入Java虛擬機》書中是這樣描述的:JVM運行時數據區的內存模型由五部分組成:
【1】方法區
【2】堆
【3】Java棧
【4】PC寄存器
【5】本地方法棧
對于String s = "hello" ,它的虛擬機指令:
- Java code
-
0: ldc #16; //string hello 2: astore_1 3: return
對于上面虛擬機指令,其各自的指令流程在《深入Java虛擬機》這樣描述到(結合上面實例):
ldc指令格式:ldc,index
ldc指令過程:
要執行ldc指令,jvm首先查找index所指定的常量池入口,在index指向的常量池入口,jvm將會查找constant_integer_info,constant_float_info和constant_string_info入口。如果還沒有這些入口,jvm會解析它們。而對于上面的hahajvm會找到constant_string_info入口,同時,將把指向被拘留String對象(由解析該入口的進程產生)的引用壓入操作數棧。
astore_1指令格式:astore_1
astore_1指令過程:
要執行astore_1指令,jvm從操作數棧頂部彈出一個引用類型或者returnaddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnaddress類型值存入局部變量1。
return 指令的過程:
從方法中返回,返回值為void。
談一下我個人理解:
從上面的ldc指令的執行過程可以得出:s的值是來自被拘留string對象(由解析該入口的進程產生)的引用,即可以理解為是從被拘留string對象的引用復制而來的,故我個人的理解是s的值是存在棧當中。上面是對于s值得分析,接著是對于"hello"值的分析,我們知道,對于string s = "hello" 其中"hello"值在java程序編譯期就確定下來了的。簡單一點說,就是haha的值在程序編譯成class文件后,就在class文件中生成了(大家可以用ue編輯器或其它文本編輯工具在打開class文件后的字節碼文件中看到這個hello值)。執行java程序的過程中,第一步是class文件生成,然后被jvm裝載到內存執行。那么jvm裝載這個class到內存中,其中的hello這個值,在內存中是怎么為其開辟空間并存儲在哪個區域中呢?
說到這里,我們不妨先來了解一下jvm常量池這個結構,《深入Java虛擬機》書中有這樣的描述:
常量池
虛擬機必須為每個被裝載的類型維護一個常量池。常量池就是該類型所用到常量的一個有序集和,包括直接常量(string,integer和floating point常量)和對其他類型,字段和方法的符號引用。對于string常量,它的值是在常量池中的。而jvm中的常量池在內存當中是以表的形式存在的,對于string類型,有一張固定長度的constant_string_info表用來存儲文字字符串值,注意:該表只存儲文字字符串值,不存儲符號引用。說到這里,對常量池中的字符串值的存儲位置應該有一個比較明了的理解了。
在介紹完jvm常量池的概念后,接著談開始提到的"hello"的值的內存分布的位置。對于haha的值,實際上是在class文件被jvm裝載到內存當中并被引擎在解析ldc指令并執行ldc指令之前,jvm就已經為haha這個字符串在常量池的constant_string_info表中分配了空間來存儲hello這個值。既然hello這個字符串常量存儲在常量池中,根據《深入java虛擬機》書中描述:常量池是屬于類型信息的一部分,類型信息也就是每一個被轉載的類型,這個類型反映到jvm內存模型中是對應存在于jvm內存模型的方法區中,也就是這個類型信息中的常量池概念是存在于在方法區中,而方法區是在jvm內存模型中的堆中由jvm來分配的。所以,hello的值是應該是存在堆空間中的。
而對于string s = new string("hello") ,它的jvm指令:
- Java code
-
0: new #16; //class string 3: dup 4: ldc #18; //string hello 6: invokespecial #20; //method java/lang/string."":(ljava/lang/string;)v 9: astore_1 10: return
對于上面虛擬機指令,其各自的指令流程在《深入java虛擬機》這樣描述到(結合上面實例):
new指令格式:new indexbyte1,indexbyte2
new指令過程:
要執行new指令,jvm通過計算(indextype1<<8)|indextype2生成一個指向常量池的無符號16位索引。然后jvm根據計算出的索引查找常量池入口。該索引所指向的常量池入口必須為constant_class_info。如果該入口尚不存在,那么jvm將解析這個常量池入口,該入口類型必須是類。jvm從堆中為新對象映像分配足夠大的空間,并將對象的實例變量設為默認值。最后jvm將指向新對象的引用objectref壓入操作數棧。
dup指令格式:dup
dup指令過程:
要執行dup指令,jvm復制了操作數棧頂部一個字長的內容,然后再將復制內容壓入棧。本指令能夠從操作數棧頂部復制任何單位字長的值。但絕對不要使用它來復制操作數棧頂部任何兩個字長(long型或double型)中的一個字長。上面例中,即復制引用objectref,這時在操作數棧存在2個引用。
ldc指令格式:ldc,index
ldc指令過程:
要執行ldc指令,jvm首先查找index所指定的常量池入口,在index指向的常量池入口,jvm將會查找constant_integer_info,constant_float_info和constant_string_info入口。如果還沒有這些入口,jvm會解析它們。而對于上面的haha,jvm會找到constant_string_info入口,同時,將把指向被拘留string對象(由解析該入口的進程產生)的引用壓入操作數棧。
invokespecial指令格式:invokespecial,indextype1,indextype2
invokespecial指令過程:對于該類而言,該指令是用來進行實例初始化方法的調用。鑒于該指令篇幅,具體可以查閱《深入java虛擬機》中描述。上面例子中,即通過其中一個引用調用string類的構造器,初始化對象實例,讓另一個相同的引用指向這個被初始化的對象實例,然后前一個引用彈出操作數棧。
astore_1指令格式:astore_1
astore_1指令過程:
要執行astore_1指令,jvm從操作數棧頂部彈出一個引用類型或者returnaddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnaddress類型值存入局部變量1。
return 指令的過程:
從方法中返回,返回值為void。
要執行astore_1指令,jvm從操作數棧頂部彈出一個引用類型或者returnaddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnaddress類型值存入局部變量1。
通過上面6個指令,可以看出,string s = new string("hello");中的hello存儲在堆空間中,而s則是在操作數棧中。
上面是對s和haha值的內存情況的分析和理解;那對于string s = new string("hello");語句,到底創建了幾個對象呢?
我的理解:這里"hello"本身就是常量池中的一個對象,而在運行時執行new string()時,將常量池中的對象復制一份放到堆中,并且把堆中的這個對象的引用交給s持有。所以這條語句就創建了2個string對象。
下面是一些string相關的常見問題:String中的final用法和理解
final stringbuffer a = new stringbuffer("111");
final stringbuffer b = new stringbuffer("222");
a=b;//此句編譯不通過
final stringbuffer a = new stringbuffer("111");
a.append("222");//編譯通過
可見,final只對引用的"值"(即內存地址)有效,它迫使引用只能指向初始指向的那個對象,改變它的指向會導致編譯期錯誤。至于它所指向的對象的變化,final是不負責的。
String 常量池問題的幾個例子下面是幾個常見例子的比較分析和理解:
【1】
- Java code
-
String a = "a1"; String b = "a" + 1; System.out.println((a == b)); //result = true String a = "atrue"; String b = "a" + "true"; System.out.println((a == b)); //result = true String a = "a3.4"; String b = "a" + 3.4; System.out.println((a == b)); //result = true
分析:jvm對于字符串常量的"+"號連接,將程序編譯期,jvm就將常量字符串的"+"連接優化為連接后的值,拿"a" + 1來說,經編譯器優化后在class中就已經是a1。在編譯期其字符串常量的值就確定下來,故上面程序最終的結果都為true。
【2】
- Java code
-
String a = "ab"; String bb = "b"; String b = "a" + bb; System.out.println((a == b)); //result = false
分析:jvm對于字符串引用,由于在字符串的"+"連接中,有字符串引用存在,而引用的值在程序編譯期是無法確定的,即"a" + bb無法被編譯器優化,只有在程序運行期來動態分配并將連接后的新地址賦給b。所以上面程序的結果也就為false。
【3】
- Java code
-
String a = "ab"; final String bb = "b"; String b = "a" + bb; System.out.println((a == b)); //result = true
分析:和[3]中唯一不同的是bb字符串加了final修飾,對于final修飾的變量,它在編譯時被解析為常量值的一個本地拷貝存儲到自己的常量池中或嵌入到它的字節碼流中。所以此時的"a" + bb和"a" + "b"效果是一樣的。故上面程序的結果為true。
【4】
- Java code
-
String a = "ab"; final String bb = getbb(); String b = "a" + bb; System.out.println((a == b)); //result = false private static string getbb() { return "b"; }
分析:jvm對于字符串引用bb,它的值在編譯期無法確定,只有在程序運行期調用方法后,將方法的返回值和"a"來動態連接并分配地址為b,故上面程序的結果為false。
通過上面4個例子可以得出得知:
string s = "a" + "b" + "c";
就等價于string s = "abc";
string a = "a";
string b = "b";
string c = "c";
string s = a + b + c;
這個就不一樣了,最終結果等于:
stringbuffer temp = new stringbuffer();
temp.append(a).append(b).append(c);
string s = temp.tostring();
由上面的分析結果,可就不難推斷出string 采用連接運算符(+)效率低下原因分析,形如這樣的代碼:
- Java code
-
public class test { public static void main (String args[]) { String s = null; for (int i = 0; i < 100; i++) { s += "a"; } } }
每做一次 + 就產生個stringbuilder對象,然后append后就扔掉。下次循環再到達時重新產生個stringbuilder對象,然后 append 字符串,如此循環直至結束。 如果我們直接采用 stringbuilder 對象進行 append 的話,我們可以節省 n - 1 次創建和銷毀對象的時間。所以對于在循環中要進行字符串連接的應用,一般都是用stringbuffer或stringbulider對象來進行append操作。
string對象的intern方法理解和分析:
- Java code
-
public class test4 { private static String a = "ab"; public static void main (String[] args){ String s1 = "a"; String s2 = "b"; String s = s1 + s2; System.out.println(s == a);//false System.out.println(s.intern() == a);//true } }
這里用到java里面是一個常量池的問題。對于s1+s2操作,其實是在堆里面重新創建了一個新的對象,s保存的是這個新對象在堆空間的的內容,所以s與a的值是不相等的。而當調用s.intern()方法,卻可以返回s在常量池中的地址值,因為a的值存儲在常量池中,故s.intern和a的值相等。