零拷貝(Zero-Copy)用于在數據讀寫過程中減少不需要的CPU拷貝,CPU就那么幾個,減少它的負擔自然可以提高處理效率。數據傳輸有本地的文件拷貝和通過socket進行文件傳輸兩種,兩者區別不大,只是文件數據最終的去向仍然是本地磁盤還是網卡的區別,這里以socket文件為例介紹傳統IO演化至零拷貝的過程。
介紹零拷貝之前,可以先看一下傳統IO,借此熟悉一些相關概念,先上圖:
首先要知道操作系統已經隔離了兩塊運行空間,即用戶空間和內核空間。可以理解為用戶程序是跑在用戶空間的,而操作系統的內核代碼是跑在內核空間的,把這兩個隔離是為了用戶程序的故障不影響操作系統。其實現代操作系統已經對數據的拷貝做了優化,之前把數據從底層硬件拷貝到內核空間也是CPU來的,現在CPU只需要通知一下DMA(Direct Memory Access,直接內存存取),拷貝工作就交給DMA了,這樣CPU就解放出來做其他事去了,所以現代操作系統底層硬件和內核空間之間的數據拷貝CPU參與的很少可以不予考慮,都是DMA來的,但是內核空間和用戶空間之間的活都是CPU親自上的。
從上圖可以看出,傳統IO是這么幾個步驟:
1.線程在用戶空間發起read()讀文件,線程從用戶態切換為內核態
2.DMA將磁盤數據拷貝到內核緩存后,CPU又將數據從內核緩存拷貝至用戶緩存,這時線程又從內核態切換為用戶態
3.這時候知道了數據應該往哪里寫,CPU將數據從用戶緩存拷貝至socket緩存,線程又從用戶態切換到內核態
4.最后DMA將數據從內核緩存拷貝到網卡,read()調用結束返回,線程又從內核態切換到用戶態
整個過程線程上下文切換了四次,一共有四次拷貝,2次CPU來的,2次DMA來的。觀察圖不經會想,為啥數據要在用戶空間走一趟呢,能不能在內核空間直接從內核緩存到socket緩存呢,答案是可以的,這就是第一種零拷貝技術的原理,即mmap+write,先上圖:
mmap即內存映射,mmap()是由unix/linux操作系統來調用的,它可以將內核緩存中的一塊區域與用戶緩存中的一塊區域形成映射關系,即共享內存,不過在用戶緩存中的這塊映射區域是堆外內存。建立映射關系后,理解起來就是往其中任意一頭寫另外一頭也寫進去了,這樣是為了省掉一次CPU拷貝,傳統IO要把數據從內核緩存拷貝到用戶緩存才能寫,現在直接在用戶緩存寫,有了映射關系,對應的那塊內核緩存也有了。mmap+write實現的零拷貝流程是這樣的:
1.用戶進程要讀一個磁盤文件,告訴內核進程發起mmap()函數調用,來來來把你的內核緩存和我的一塊用戶緩存建立下映射關系,我要讀這個磁盤文件了。
2.內核進程乖乖調用了mmap()函數,將一塊內核緩存和用戶緩存中的一塊堆外內存建立的映射關系。并且告訴DMA將這個文件中的數據拷貝到了這塊內核緩存中。到這里mmap()函數就調用結束了,任務完成。嚴格的說到這里為止都不算IO過程,因此也沒有統計線程的上下文切換次數。
3.這才開始IO,因為磁盤文件已經被DMA拷貝到內核緩存中去了,又被映射到了這塊堆外內存,所以就直接在用戶緩存里就讀到了,線程沒有上下文切換,然后準備寫進一塊socket緩存里去了,線程發起了write()調用,狀態由用戶態切換為內核態,這時候內核基于CPU拷貝將數據從那塊映射著的內核緩存拷貝到socket緩存,CPU也就拷貝了這一次。
4.然后又是DMA將數據從socket緩存拷貝到網卡,最后write()函數調用返回,線程從內核態切換到用戶態。
整個過程線程切換了兩次,一共有三次拷貝,其中2次DMA拷貝,1次CPU拷貝。到這里CPU已經輕松不少了,就拷貝了一次嘛,可以不是說好的零拷貝的嘛,怎么還有一次拷貝,然后sendfile()函數就登場了,它是實實在在的實現了零拷貝,先上圖:
sendfile()也是操作系統來調用的,用戶線程只能通過特定的方法發起調用,比如java.nio包下的FileChannel,它的transferTo()方法可以發起sendfile()函數的調用。sendfile()函數實現零拷貝的過程是這樣的:
1.用戶線程發起sendfile()函數調用,與mmap()函數不同的是,不單單告訴內核去哪里讀數據,往哪里寫數據也一起告訴內核了。這時候就已經開始算IO了,線程從用戶態切換到了內核態。
2.知道了從哪里讀數據,依然是DMA去磁盤里把數據拷貝到內核緩存中去,由于同時也知道了應該往哪里寫數據,那就接著干活唄。
3.先把數據描述信息從內核緩存復制到指定的socket緩存,然后DMA又來了,這個時候socket緩存中的數據描述信息就起作用了,這些描述信息主要是數據的位置信息等。DMA Gather通過這些數據描述信息將數據從內核緩存拷貝到網卡。
4.sendfile()函數調用結束,線程從內核態切換到了用戶態,CPU一次拷貝都沒有!零!
這就是真正的零拷貝,整個過程用戶線程切換了兩次,只有兩次拷貝,但都是DMA來的。
關于第三種零拷貝方式,這是Linux2.4對sendfile做了改進之后的零拷貝。其實linux 2.1 內核開始就引入了sendfile()函數,當時的零拷貝是這樣的。
可以看出整個過程用戶線程切換了兩次,有三次拷貝,兩次DMA來的,還是有一次CPU拷貝。這種零拷貝方式和mmap+write方式有點類似,但是這也算零拷貝演進過程中的一環。
sendfile()函數的man page里面有這句話: In Linux kernels before 2.6.33, out_fd must refer to a socket. Since Linux 2.6.33 it can be any file. 也就是說Linux2.6.33之前sendfile()只能用于文件到socket的傳輸。而Linux2.6.33之后可以用于兩個文件描述符之間和文件到socket之間的傳輸。
-
IO
+關注
關注
0文章
461瀏覽量
39374 -
cpu
+關注
關注
68文章
10905瀏覽量
213030 -
數據
+關注
關注
8文章
7145瀏覽量
89584
發布評論請先 登錄
相關推薦
深度解析Linux中零拷貝原理
利用PLD實現智能演化計算
RAID中零拷貝技術研究
用于時鐘的動態演化模型及算法
![用于時鐘的動態<b class='flag-5'>演化</b>模型及算法](https://file.elecfans.com/web2/M00/49/62/poYBAGKhwKuAVT34AAAT1ykjL7A324.jpg)
基于微博文本的詞對主題演化模型
![基于微博文本的詞對主題<b class='flag-5'>演化</b>模型](https://file.elecfans.com/web2/M00/49/70/poYBAGKhwLSAN3PzAAAaMsKvglI068.jpg)
相場模擬—盡“顯”增材制造過程中的晶粒演化
深入理解Linux系統零拷貝技術
什么是零拷貝技術
![什么是<b class='flag-5'>零</b><b class='flag-5'>拷貝</b>技術](https://file1.elecfans.com/web2/M00/B1/6D/wKgaomVkUQ2AQlLfAABWqBbXFso459.jpg)
如何進行零拷貝性能測試
![如何進行<b class='flag-5'>零</b><b class='flag-5'>拷貝</b>性能測試](https://file1.elecfans.com/web2/M00/B1/6F/wKgaomVkV0iAQw9DAAFYlhW-LuU707.jpg)
評論