一.基本概念
零
拷貝(zero-copy)基本思想是:數(shù)據(jù)報從網(wǎng)絡(luò)設(shè)備到用戶程序空間傳遞的過程中,減少數(shù)據(jù)拷貝次數(shù),減少系統(tǒng)調(diào)用,實現(xiàn)CPU的零參與,徹底消除
CPU在這方面的負(fù)載。實現(xiàn)零拷貝用到的最主要技術(shù)是DMA數(shù)據(jù)傳輸技術(shù)和內(nèi)存區(qū)域映射技術(shù)。如圖1所示,傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)報處理,需要經(jīng)過網(wǎng)絡(luò)設(shè)備到操作
系統(tǒng)內(nèi)存空間,系統(tǒng)內(nèi)存空間到用戶應(yīng)用程序空間這兩次拷貝,同時還需要經(jīng)歷用戶向系統(tǒng)發(fā)出的系統(tǒng)調(diào)用。而零拷貝技術(shù)則首先利用DMA技術(shù)將網(wǎng)絡(luò)數(shù)據(jù)報直接
傳遞到系統(tǒng)內(nèi)核預(yù)先分配的地址空間中,避免CPU的參與;同時,將系統(tǒng)內(nèi)核中存儲數(shù)據(jù)報的內(nèi)存區(qū)域映射到檢測程序的應(yīng)用程序空間(還有一種方式是在用戶空
間建立一緩存,并將其映射到內(nèi)核空間,類似于linux系統(tǒng)下的kiobuf技術(shù)),檢測程序直接對這塊內(nèi)存進(jìn)行訪問,從而減少了系統(tǒng)內(nèi)核向用戶空間的內(nèi)
存拷貝,同時減少了系統(tǒng)調(diào)用的開銷,實現(xiàn)了真正的“零拷貝”。
圖1 傳統(tǒng)數(shù)據(jù)處理與零拷貝技術(shù)之比較
二.實現(xiàn)
在redhat7.3
上通過修改其內(nèi)核源碼中附帶的8139too.c完成零拷貝的試驗,主要想法是:在8139too網(wǎng)卡驅(qū)動模塊啟動時申請一內(nèi)核緩存,并建立一數(shù)據(jù)結(jié)構(gòu)對
其進(jìn)行管理,然后試驗性的向該緩存寫入多個字符串?dāng)?shù)據(jù),最后通過proc文件系統(tǒng)將該緩存的地址傳給用戶進(jìn)程;用戶進(jìn)程通過讀proc文件系統(tǒng)取得緩存地
址并對該緩存進(jìn)行地址映射,從而可以從其中讀取數(shù)據(jù)。哈哈,為了偷懶,本文只是對零拷貝思想中的地址映射部分進(jìn)行試驗,而沒有實現(xiàn)DMA數(shù)據(jù)傳輸(太麻煩
了,還得了解硬件),本試驗并不是一個IDS產(chǎn)品中抓包模塊的一部分,要想真正在IDS中實現(xiàn)零拷貝,除了DMA外,還有一些問題需考慮,詳見本文第三節(jié)
的分析。以下為實現(xiàn)零拷貝的主要步驟,詳細(xì)代碼見附錄。
步驟一:修改網(wǎng)卡驅(qū)動程序
a.在網(wǎng)卡驅(qū)動程序中申請一塊緩存:由于在linux2.4.X內(nèi)核中支持的最大可分配連續(xù)緩存大小為2M,所以如果需要存儲更大量的網(wǎng)絡(luò)數(shù)據(jù)報文,則需要分配多塊非連續(xù)的緩存,并使用鏈表、數(shù)組或hash表來對這些緩存進(jìn)行管理。
#define PAGES_ORDER 9
unsigned long su1_2
su1_2 = __get_free_pages(GFP_KERNEL,PAGES_ORDER);
b. 向緩存中寫入數(shù)據(jù):真正IDS產(chǎn)品中的零拷貝實現(xiàn)應(yīng)該是使用DMA數(shù)據(jù)傳輸把網(wǎng)卡硬
件接收到的包直接寫入該緩存。作為試驗,我只是向該緩存中寫入幾個任意
的字符串,如果不考慮DMA而又想向緩存中寫入真正的網(wǎng)絡(luò)數(shù)據(jù)包,可以在8139too.c的rtl8139_rx_interrupt()中調(diào)用
netif_rx()后插入以下代碼:
//put_pkt2mem_n++; //包個數(shù)
//put_mem(skb->data,pkt_size);
其中put_pkt2mem_n變量和put_mem函數(shù)見附錄。
c. 把該緩存的物理地址傳到用戶空間:由于在內(nèi)核中申請的緩存地址為虛擬地址,而在用戶
空間需要得到的是該緩存的物理地址,所以首先要進(jìn)行虛擬地址到物理地址
的轉(zhuǎn)換,在linux系統(tǒng)中可以使用內(nèi)核虛擬地址減3G來獲得對應(yīng)的物理地址。把緩存的地址傳到用戶空間需要在內(nèi)核與用戶空間進(jìn)行少量數(shù)據(jù)傳輸,這可以使
用字符驅(qū)動、proc文件系統(tǒng)等方式實現(xiàn),在這里采用了proc文件系統(tǒng)方式。
int read_procaddr(char *buf,char **start,off_t offset,int count,int *eof,void *data)
{
sprintf(buf,"%u\n",__pa(su1_2));
*eof = 1;
return 9;
}
create_proc_read_entry("nf_addr",0,NULL,read_procaddr,NULL);
步驟二:在用戶程序中實現(xiàn)對共享緩存的訪問
a.讀取緩存地址:通過直接讀取proc文件的方式便可獲得。
char addr[9];
int fd_procaddr;
unsigned long ADDR;
fd_procaddr = open("/proc/nf_addr",O_RDONLY);
read(fd_procaddr,addr,9);
ADDR = atol(addr);
b.把緩存映射到用戶進(jìn)程空間中:在用戶進(jìn)程中打開/dev/mem設(shè)備(相當(dāng)于物理內(nèi)存),使用mmap把網(wǎng)卡驅(qū)動程序申請的緩存映射到自己的進(jìn)程空間,然后就可以從中讀取所需要的網(wǎng)絡(luò)數(shù)據(jù)包了。
char *su1_2;
int fd;
fd=open("/dev/mem",O_RDWR);
su1_2 = mmap(0,PAGES*4*1024, PROT_READ|PROT_WRITE, MAP_SHARED, fd, ADDR);
三.分析
零拷貝中存在的最關(guān)鍵問題是同步問題,一邊是處于內(nèi)核空間的網(wǎng)卡驅(qū)動向緩存中寫入網(wǎng)絡(luò)數(shù)據(jù)包,一邊是用戶進(jìn)程直接對緩存中的數(shù)據(jù)包進(jìn)行分析(注意,不是拷
貝后再分析),由于兩者處于不同的空間,這使得同步問題變得更加復(fù)雜。緩存被分成多個小塊,每一塊存儲一個網(wǎng)絡(luò)數(shù)據(jù)包并用一數(shù)據(jù)結(jié)構(gòu)表示,本試驗在包數(shù)據(jù)
結(jié)構(gòu)中使用標(biāo)志位來標(biāo)識什么時候可以進(jìn)行讀或?qū)懀?font color="#0000ff">當(dāng)網(wǎng)卡驅(qū)動向包數(shù)據(jù)結(jié)構(gòu)中填入真實的包數(shù)據(jù)后便標(biāo)識該包為可讀,當(dāng)用戶進(jìn)程對包數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)分析完后 便標(biāo)識該包為可寫,這基本解決了同步問題。然而,由于IDS的分析進(jìn)程需要直接對緩存中的數(shù)據(jù)進(jìn)行入侵分析,而不是將數(shù)據(jù)拷貝到用戶空間后再進(jìn)行分析,這 使得讀操作要慢于寫操作,有可能造成網(wǎng)卡驅(qū)動無緩存空間可以寫,從而造成一定的丟包現(xiàn)象,解決這一問題的關(guān)鍵在于申請多大的緩存,太小的緩存容易造成丟 包,太大的緩存則管理麻煩并且對系統(tǒng)性能會有比較大的影響。
四.附錄
a. 8139too.c中加入的代碼
/*add_by_liangjian for zero_copy*/
#include <linux/wrapper.h>
#include <asm/page.h>
#include <linux/slab.h>
#include <linux/proc_fs.h>
#define PAGES_ORDER 9
#define PAGES 512
#define MEM_WIDTH 1500
/*added*/
/*add_by_liangjian for zero_copy*/
struct MEM_DATA
{
//int key;
unsigned short width;/*緩沖區(qū)寬度*/
unsigned short length;/*緩沖區(qū)長度*/
//unsigned short wtimes;/*寫進(jìn)程記數(shù),預(yù)留,為以后可以多個進(jìn)程寫*/
//unsigned short rtimes;/*讀進(jìn)程記數(shù),預(yù)留,為以后可以多個進(jìn)程讀*/
unsigned short wi;/*寫指針*/
unsigned short ri;/*讀指針*/
} * mem_data;
struct MEM_PACKET
{
unsigned int len;
unsigned char packetp[MEM_WIDTH - 4];/*sizeof(unsigned int) == 4*/
};
unsigned long su1_2;/*緩存地址*/
/*added*/
/*add_by_liangjian for zero_copy*/
//刪除緩存
void del_mem()
{
int pages = 0;
char *addr;
addr = (char *)su1_2;
while (pages <=PAGES -1)
{
mem_map_unreserve(virt_to_page(addr));
addr = addr + PAGE_SIZE;
pages++;
}
free_pages(su1_2,PAGES_ORDER);
}
void init_mem()
/********************************************************
* 初始化緩存
* 輸入: aMode: 緩沖區(qū)讀寫模式: r,w *
* 返回: 00: 失敗 *
* >0: 緩沖區(qū)地址 *
********************************************************/
{
int i;
int pages = 0;
char *addr;
char *buf;
struct MEM_PACKET * curr_pack;
su1_2 = __get_free_pages(GFP_KERNEL,PAGES_ORDER);
printk("[%x]\n",su1_2);
addr = (char *)su1_2;
while (pages <= PAGES -1)
{
mem_map_reserve(virt_to_page(addr));//需使緩存的頁面常駐內(nèi)存
addr = addr + PAGE_SIZE;
pages++;
}
mem_data = (struct MEM_DATA *)su1_2;
mem_data[0].ri = 1;
mem_data[0].wi = 1;
mem_data[0].length = PAGES*4*1024 / MEM_WIDTH;
mem_data[0].width = MEM_WIDTH;
/* initial su1_2 */
for(i=1;i<=mem_data[0].length;i++)
{
buf = (void *)((char *)su1_2 + MEM_WIDTH * i);
curr_pack = (struct MEM_PACKET *)buf;
curr_pack->len = 0;
}
}
int put_mem(char *aBuf,unsigned int pack_size)
/****************************************************************
* 寫緩沖區(qū)子程序 *
* 輸入?yún)?shù) : aMem: 緩沖區(qū)地址 *
* aBuf: 寫數(shù)據(jù)地址 *
* 輸出參數(shù) : <=00 : 錯誤 *
* XXXX : 數(shù)據(jù)項序號 *
*****************************************************************/
{
register int s,i,width,length,mem_i;
char *buf;
struct MEM_PACKET * curr_pack;
s = 0;
mem_data = (struct MEM_DATA *)su1_2;
width = mem_data[0].width;
length = mem_data[0].length;
mem_i = mem_data[0].wi;
buf = (void *)((char *)su1_2 + width * mem_i);
for (i=1;i<length;i++){
curr_pack = (struct MEM_PACKET *)buf;
if (curr_pack->len == 0){
memcpy(curr_pack->packetp,aBuf,pack_size);
curr_pack->len = pack_size;;
s = mem_i;
mem_i++;
if (mem_i >= length)
mem_i = 1;
mem_data[0].wi = mem_i;
break;
}
mem_i++;
if (mem_i >= length){
mem_i = 1;
buf = (void *)((char *)su1_2 + width);
}
else buf = (char *)su1_2 + width*mem_i;
}
if(i >= length)
s = 0;
return s;
}
// proc文件讀函數(shù)
int read_procaddr(char *buf,char **start,off_t offset,int count,int *eof,void *data)
{
sprintf(buf,"%u\n",__pa(su1_2));
*eof = 1;
return 9;
}
/*added*/
在8139too.c的rtl8139_init_module()函數(shù)中加入以下代碼:
/*add_by_liangjian for zero_copy*/
put_pkt2mem_n = 0;
init_mem();
put_mem("data1dfadfaserty",16);
put_mem("data2zcvbnm",11);
put_mem("data39876543210poiuyt",21);
create_proc_read_entry("nf_addr",0,NULL,read_procaddr,NULL);
/*added */
在8139too.c的rtl8139_cleanup_module()函數(shù)中加入以下代碼:
/*add_by_liangjian for zero_copy*/
del_mem();
remove_proc_entry("nf_addr",NULL);
/*added*/
b.用戶空間讀取緩存代碼
#include <stdio.h>
#include <unistd.h>
#include <sys/stat.h>
#include <sys/mman.h>
#include <fcntl.h>
#define PAGES 512
#define MEM_WIDTH 1500
struct MEM_DATA
{
//int key;
unsigned short width;/*緩沖區(qū)寬度*/
unsigned short length;/*緩沖區(qū)長度*/
//unsigned short wtimes;/*寫進(jìn)程記數(shù),預(yù)留,為以后可以多個進(jìn)程寫*/
//unsigned short rtimes;/*讀進(jìn)程記數(shù),預(yù)留,為以后可以多個進(jìn)程讀*/
unsigned short wi;/*寫指針*/
unsigned short ri;/*讀指針*/
} * mem_data;
struct MEM_PACKET
{
unsigned int len;
unsigned char packetp[MEM_WIDTH - 4];/*sizeof(unsigned int) == 4*/
};
int get_mem(char *aMem,char *aBuf,unsigned int *size)
/****************************************************************
* 讀緩沖區(qū)子程序 *
* 輸入?yún)?shù) : aMem: 緩沖區(qū)地址 *
* aBuf: 返回數(shù)據(jù)地址, 其數(shù)據(jù)區(qū)長度應(yīng)大于*
* 緩沖區(qū)寬度 *
* 輸出參數(shù) : <=00 : 錯誤 *
* XXXX : 數(shù)據(jù)項序號 *
*****************************************************************/
{
register int i,s,width,length,mem_i;
char *buf;
struct MEM_PACKET * curr_pack;
s = 0;
mem_data = (void *)aMem;
width = mem_data[0].width;
length = mem_data[0].length;
mem_i = mem_data[0].ri;
buf = (void *)(aMem + width * mem_i);
curr_pack = (struct MEM_PACKET *)buf;
if (curr_pack->len != 0){/*第一個字節(jié)為0說明該部分為空*/
memcpy(aBuf,curr_pack->packetp,curr_pack->len);
*size = curr_pack->len;
curr_pack->len = 0;
s = mem_data[0].ri;
mem_data[0].ri++;
if(mem_data[0].ri >= length)
mem_data[0].ri = 1;
goto ret;
}
for (i=1;i<length;i++){
mem_i++;/*繼續(xù)向后找,最糟糕的情況是把整個緩沖區(qū)都找一遍*/
if (mem_i >= length)
mem_i = 1;
buf = (void *)(aMem + width*mem_i);
curr_pack = (struct MEM_PACKET *)buf;
if (curr_pack->len == 0)
continue;
memcpy(aBuf,curr_pack->packetp,curr_pack->len);
*size = curr_pack->len;
curr_pack->len = 0;
s = mem_data[0].ri = mem_i;
mem_data[0].ri++;
if(mem_data[0].ri >= length)
mem_data[0].ri = 1;
break;
}
ret:
return s;
}
int main()
{
char *su1_2;
char receive[1500];
int i,j;
int fd;
int fd_procaddr;
unsigned int size;
char addr[9];
unsigned long ADDR;
j = 0;
/*open device 'mem' as a media to access the RAM*/
fd=open("/dev/mem",O_RDWR);
fd_procaddr = open("/proc/nf_addr",O_RDONLY);
read(fd_procaddr,addr,9);
ADDR = atol(addr);
close(fd_procaddr);
printf("%u[%8lx]\n",ADDR,ADDR);
/*Map the address in kernel to user space, use mmap function*/
su1_2 = mmap(0,PAGES*4*1024, PROT_READ|PROT_WRITE, MAP_SHARED, fd, ADDR);
perror("mmap");
while(1)
{
bzero(receive,1500);
i = get_mem(su1_2,receive,&size);
if (i != 0)
{
j++;
printf("%d:%s[size = %d]\n",j,receive,size);
}
else
{
printf("there have no data\n");
munmap(su1_2,PAGES*4*1024);
close(fd);
break;
}
}
while(1);
}
五.參考文獻(xiàn)
1.CHRISTIAN KURMANN, FELIX RAUCH ,THOMAS M. STRICKER.
Speculative Defragmentation - Leading Gigabit Ethernet to True Zero-Copy Communication
2.ALESSANDRO RUBINI,JONATHAN CORBET.《LINUX DEVICE DRIVERS 2》,O’Reilly & Associates 2002.
3.胡希明,毛德操.《LINUX 內(nèi)核源代碼情景分析》,浙江大學(xué)出版社 2001
關(guān)
于作者:梁健,華北計算技術(shù)研究所在讀碩士研究生,研究方向:信息安全。論文開題為《基于系統(tǒng)調(diào)用分析的主機異常入侵檢測與防御》。對IDS有兩年多的研
究經(jīng)驗,熟悉linux內(nèi)核,熟悉linux c/c++編程、win32 API編程,對網(wǎng)絡(luò)和操作系統(tǒng)安全感興趣。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
零拷貝技術(shù)分為兩步:
1、硬件到內(nèi)核,實現(xiàn)的前提是網(wǎng)卡必須支持DMA,對于不支持DMA的網(wǎng)卡無法實現(xiàn)零拷貝。
2、內(nèi)核到用戶層,將系統(tǒng)內(nèi)核中存儲數(shù)據(jù)報的內(nèi)存區(qū)域映射到檢測程序的應(yīng)用程序空間或者在用戶空間建立一緩存,并將其映射到內(nèi)核空間。
很多相關(guān)公司都采用了這種技術(shù)Firewall/IDS等,這兩種技術(shù)已經(jīng)很成熟了
摘自:http://hi.baidu.com/msingle/blog/item/0ec4eb239db94e40ad34de18.html