Linux 網絡子系統的分層

Linux網絡子系統實現需要：

l 支持不同的協議族 ( INET, INET6, UNIX, NETLINK...)

l 支持不同的網絡設備

l 支持統一的BSD socket API

需要屏蔽協議、硬件、平臺(API)的差異，因而采用分層結構：

系統調用提供用戶的應用程序訪問內核的唯一途徑。協議無關接口由socket layer來實現的，其提供一組通用功能，以支持各種不同的協議。網絡協議層為socket層提供具體協議接口——proto{}，實現具體的協議細節。設備無關接口，提供一組通用函數供底層網絡設備驅動程序使用。設備驅動與特定網卡設備相關，定義了具體的協議細節，會分配一個net_device結構，然后用其必需的例程進行初始化。

TCP/IP分層模型

在TCP/IP網絡分層模型里，整個協議棧被分成了物理層、鏈路層、網絡層，傳輸層和應用層。物理層對應的是網卡和網線，應用層對應的是我們常見的Nginx，FTP等等各種應用。Linux實現的是鏈路層、網絡層和傳輸層這三層。

在Linux內核實現中，鏈路層協議靠網卡驅動來實現，內核協議棧來實現網絡層和傳輸層。內核對更上層的應用層提供socket接口來供用戶進程訪問。我們用Linux的視角來看到的TCP/IP網絡分層模型應該是下面這個樣子的。

首先我們梳理一下每層模型的職責：

鏈路層：對0和1進行分組，定義數據幀，確認主機的物理地址，傳輸數據;

網絡層：定義IP地址，確認主機所在的網絡位置，并通過IP進行MAC尋址，對外網數據包進行路由轉發;

傳輸層：定義端口，確認主機上應用程序的身份，并將數據包交給對應的應用程序;

應用層：定義數據格式，并按照對應的格式解讀數據。

然后再把每層模型的職責串聯起來，用一句通俗易懂的話講就是：

當你輸入一個網址并按下回車鍵的時候，首先，應用層協議對該請求包做了格式定義;緊接著傳輸層協議加上了雙方的端口號，確認了雙方通信的應用程序;然后網絡協議加上了雙方的IP地址，確認了雙方的網絡位置;最后鏈路層協議加上了雙方的MAC地址，確認了雙方的物理位置，同時將數據進行分組，形成數據幀，采用廣播方式，通過傳輸介質發送給對方主機。而對于不同網段，該數據包首先會轉發給網關路由器，經過多次轉發后，最終被發送到目標主機。目標機接收到數據包后，采用對應的協議，對幀數據進行組裝，然后再通過一層一層的協議進行解析，最終被應用層的協議解析并交給服務器處理。

Linux 網絡協議棧

基于TCP/IP協議棧的send/recv在應用層，傳輸層，網絡層和鏈路層中具體函數調用過程已經有很多人研究，本文引用一張比較完善的圖如下：

以上說明基本大致說明了TCP/IP中TCP，UDP協議包在網絡子系統中的實現流程。本文主要在鏈路層中，即關于網卡收報觸發中斷到進入網絡層之間的過程探究。

Linux 網卡收包時的中斷處理問題

中斷，一般指硬件中斷，多由系統自身或與之鏈接的外設（如鍵盤、鼠標、網卡等）產生。中斷首先是處理器提供的一種響應外設請求的機制，是處理器硬件支持的特性。一個外設通過產生一種電信號通知中斷控制器，中斷控制器再向處理器發送相應的信號。處理器檢測到了這個信號后就會打斷自己當前正在做的工作，轉而去處理這次中斷（所以才叫中斷）。當然在轉去處理中斷和中斷返回時都有保護現場和返回現場的操作，這里不贅述。

   那軟中斷又是什么呢？我們知道在中斷處理時CPU沒法處理其它事物，對于網卡來說，如果每次網卡收包時中斷的時間都過長，那很可能造成丟包的可能性。當然我們不能完全避免丟包的可能性，以太包的傳輸是沒有100%保證的，所以網絡才有協議棧，通過高層的協議來保證連續數據傳輸的數據完整性（比如在協議發現丟包時要求重傳）。但是即使有協議保證，那我們也不能肆無忌憚的使用中斷，中斷的時間越短越好，盡快放開處理器，讓它可以去響應下次中斷甚至進行調度工作。基于這樣的考慮，我們將中斷分成了上下兩部分，上半部分就是上面說的中斷部分，需要快速及時響應，同時需要越快結束越好。而下半部分就是完成一些可以推后執行的工作。對于網卡收包來說，網卡收到數據包，通知內核數據包到了，中斷處理將數據包存入內存這些都是急切需要完成的工作，放到上半部完成。而解析處理數據包的工作則可以放到下半部去執行。

軟中斷就是下半部使用的一種機制，它通過軟件模仿硬件中斷的處理過程，但是和硬件沒有關系，單純的通過軟件達到一種異步處理的方式。其它下半部的處理機制還包括tasklet，工作隊列等。依據所處理的場合不同，選擇不同的機制，網卡收包一般使用軟中斷。對應NET_RX_SOFTIRQ這個軟中斷，軟中斷的類型如下：

enum
{
        HI_SOFTIRQ=0,
        TIMER_SOFTIRQ,
        NET_TX_SOFTIRQ,
        NET_RX_SOFTIRQ,
        BLOCK_SOFTIRQ,
        IRQ_POLL_SOFTIRQ,
        TASKLET_SOFTIRQ,
        SCHED_SOFTIRQ,
        HRTIMER_SOFTIRQ,
        RCU_SOFTIRQ,    /* Preferable RCU should always be the last softirq */
        NR_SOFTIRQS
};

通過以上可以了解到，Linux中斷注冊顯然應該包括網卡的硬中斷，包處理的軟中斷兩個步驟。

l 注冊網卡中斷

我們以一個具體的網卡驅動為例，比如e1000。其模塊初始化函數就是：

static int __init e1000_init_module(void)
{
int ret;
        pr_info("%s - version %sn", e1000_driver_string, e1000_driver_version);
        pr_info("%sn", e1000_copyright);
        ret = pci_register_driver(&e1000_driver);
...
return ret;

}

其中e1000_driver這個結構體是一個關鍵，這個結構體中很主要的一個方法就是.probe方法，也就是e1000_probe()：

/**                                                  

 * e1000_probe - Device Initialization Routine         
 * @pdev: PCI device information struct                    
 * @ent: entry in e1000_pci_tbl     
 *                                
 * Returns 0 on success, negative on failure                                                                               
 *                                                                                                               
 * e1000_probe initializes an adapter identified by a pci_dev structure.                                                               
 * The OS initialization, configuring of the adapter private structure,                                                                  
 * and a hardware reset occur.                                                      
 **/
static int e1000_probe(struct pci_dev *pdev, const struct pci_device_id *ent)
{
...
...
        netdev- >netdev_ops = &e1000_netdev_ops;
        e1000_set_ethtool_ops(netdev);
...
...
}

這個函數很長，我們不都列出來，這是e1000主要的初始化函數，即使從注釋都能看出來。我們留意其注冊了netdev的netdev_ops，用的是e1000_netdev_ops這個結構體：

static const struct net_device_ops e1000_netdev_ops = {
        .ndo_open               = e1000_open,
        .ndo_stop               = e1000_close,
        .ndo_start_xmit         = e1000_xmit_frame,
        .ndo_set_rx_mode        = e1000_set_rx_mode,
        .ndo_set_mac_address    = e1000_set_mac,
        .ndo_tx_timeout         = e1000_tx_timeout,
...
...
};

這個e1000的方法集里有一個重要的方法，e1000_open，我們要說的中斷的注冊就從這里開始：

/**           
 * e1000_open - Called when a network interface is made active  
 * @netdev: network interface device structure            
 *                                                 
 * Returns 0 on success, negative value on failure     
 *     
 * The open entry point is called when a network interface is made                                                                                                    
 * active by the system (IFF_UP).  At this point all resources needed                                                                            
 * for transmit and receive operations are allocated, the interrupt                                                     
 * handler is registered with the OS, the watchdog task is started,                                                                                                     
 * and the stack is notified that the interface is ready.                                                                                                             
 **/
int e1000_open(struct net_device *netdev)
{
struct e1000_adapter *adapter = netdev_priv(netdev);
struct e1000_hw *hw = &adapter- >hw;
...
...
        err = e1000_request_irq(adapter);
...
}

e1000在這里注冊了中斷：

static int e1000_request_irq(struct e1000_adapter *adapter)
{
struct net_device *netdev = adapter- >netdev;
        irq_handler_t handler = e1000_intr;
int irq_flags = IRQF_SHARED;
int err;
        err = request_irq(adapter- >pdev- >irq, handler, irq_flags, netdev- >name,
...
...
}

如上所示，這個被注冊的中斷處理函數，也就是handler，就是e1000_intr()。我們不展開這個中斷處理函數看了，我們知道中斷處理函數在這里被注冊了，在網絡包來的時候會觸發這個中斷函數。

l 注冊軟中斷

內核初始化期間，softirq_init會注冊TASKLET_SOFTIRQ以及HI_SOFTIRQ相關聯的處理函數。

void __init softirq_init(void)
{
    ......
    open_softirq(TASKLET_SOFTIRQ, tasklet_action);
    open_softirq(HI_SOFTIRQ, tasklet_hi_action);
}

網絡子系統分兩種soft IRQ。NET_TX_SOFTIRQ和NET_RX_SOFTIRQ，分別處理發送數據包和接收數據包。這兩個soft IRQ在net_dev_init函數（net/core/dev.c）中注冊：

open_softirq(NET_TX_SOFTIRQ, net_tx_action);

open_softirq(NET_RX_SOFTIRQ, net_rx_action);

收發數據包的軟中斷處理函數被注冊為net_rx_action和net_tx_action。其中open_softirq實現為：

void open_softirq(int nr, void (*action)(struct softirq_action *))
{
    softirq_vec[nr].action = action;
}

從硬中斷到軟中斷

Linux 網絡啟動的準備工作

首先在開始收包之前，Linux要做許多的準備工作：

創建ksoftirqd線程，為它設置好它自己的線程函數，后面就指望著它來處理軟中斷呢。
協議棧注冊，linux要實現許多協議，比如arp，icmp，ip，udp，tcp，每一個協議都會將自己的處理函數注冊一下，方便包來了迅速找到對應的處理函數
網卡驅動初始化，每個驅動都有一個初始化函數，內核會讓驅動也初始化一下。在這個初始化過程中，把自己的DMA準備好，把NAPI的poll函數地址告訴內核
啟動網卡，分配RX，TX隊列，注冊中斷對應的處理函數

l 創建ksoftirqd內核線程

Linux的軟中斷都是在專門的內核線程（ksoftirqd）中進行的，因此我們非常有必要看一下這些進程是怎么初始化的，這樣我們才能在后面更準確地了解收包過程。該進程數量不是1個，而是N個，其中N等于你的機器的核數。

系統初始化的時候在kernel/smpboot.c中調用了smpboot_register_percpu_thread，該函數進一步會執行到spawn_ksoftirqd（位于kernel/softirq.c）來創建出softirqd進程。

相關代碼如下：

//file: kernel/softirq.c


static struct smp_hotplug_thread softirq_threads = {
    .store          = &ksoftirqd,
    .thread_should_run  = ksoftirqd_should_run,
    .thread_fn      = run_ksoftirqd,
    .thread_comm        = "ksoftirqd/%u",

};

當ksoftirqd被創建出來以后，它就會進入自己的線程循環函數ksoftirqd_should_run和run_ksoftirqd了。不停地判斷有沒有軟中斷需要被處理。這里需要注意的一點是，軟中斷不僅僅只有網絡軟中斷，還有其它類型。

l 創建ksoftirqd內核線程

linux內核通過調用subsys_initcall來初始化各個子系統，在源代碼目錄里你可以grep出許多對這個函數的調用。這里我們要說的是網絡子系統的初始化，會執行到net_dev_init函數。

在這個函數里，會為每個CPU都申請一個softnet_data數據結構，在這個數據結構里的poll_list是等待驅動程序將其poll函數注冊進來，稍后網卡驅動初始化的時候我們可以看到這一過程。

另外open_softirq注冊了每一種軟中斷都注冊一個處理函數。 NET_TX_SOFTIRQ的處理函數為net_tx_action，NET_RX_SOFTIRQ的為net_rx_action。繼續跟蹤open_softirq后發現這個注冊的方式是記錄在softirq_vec變量里的。后面ksoftirqd線程收到軟中斷的時候，也會使用這個變量來找到每一種軟中斷對應的處理函數。

l 協議棧注冊

內核實現了網絡層的ip協議，也實現了傳輸層的tcp協議和udp協議。這些協議對應的實現函數分別是ip_rcv(),tcp_v4_rcv()和udp_rcv()。和我們平時寫代碼的方式不一樣的是，內核是通過注冊的方式來實現的。 Linux內核中的fs_initcall和subsys_initcall類似，也是初始化模塊的入口。fs_initcall調用inet_init后開始網絡協議棧注冊。通過inet_init，將這些函數注冊到了inet_protos和ptype_base數據結構中

相關代碼如下

//file: net/ipv4/af_inet.c

static struct packet_type ip_packet_type __read_mostly = {
    .type = cpu_to_be16(ETH_P_IP),
    .func = ip_rcv,
};

static const struct net_protocol udp_protocol = {
    .handler =  udp_rcv,
    .err_handler =  udp_err,
    .no_policy =    1,
    .netns_ok = 1,
};

static const struct net_protocol tcp_protocol = {
    .early_demux    =   tcp_v4_early_demux,
    .handler    =   tcp_v4_rcv,
    .err_handler    =   tcp_v4_err,
    .no_policy  =   1,
    .netns_ok   =   1,
};

擴展一下，如果看一下ip_rcv和udp_rcv等函數的代碼能看到很多協議的處理過程。例如，ip_rcv中會處理netfilter和iptable過濾，如果你有很多或者很復雜的 netfilter 或 iptables 規則，這些規則都是在軟中斷的上下文中執行的，會加大網絡延遲。再例如，udp_rcv中會判斷socket接收隊列是否滿了。對應的相關內核參數是net.core.rmem_max和net.core.rmem_default。如果有興趣，建議大家好好讀一下inet_init這個函數的代碼。

l 網卡驅動初始化

每一個驅動程序（不僅僅只是網卡驅動）會使用 module_init 向內核注冊一個初始化函數，當驅動被加載時，內核會調用這個函數。比如igb網卡驅動的代碼位于drivers/net/ethernet/intel/igb/igb_main.c

驅動的pci_register_driver調用完成后，Linux內核就知道了該驅動的相關信息，比如igb網卡驅動的igb_driver_name和igb_probe函數地址等等。當網卡設備被識別以后，內核會調用其驅動的probe方法（igb_driver的probe方法是igb_probe）。驅動probe方法執行的目的就是讓設備ready，對于igb網卡，其igb_probe位于drivers/net/ethernet/intel/igb/igb_main.c下。主要執行的操作如下：

第5步中我們看到，網卡驅動實現了ethtool所需要的接口，也在這里注冊完成函數地址的注冊。當 ethtool 發起一個系統調用之后，內核會找到對應操作的回調函數。對于igb網卡來說，其實現函數都在drivers/net/ethernet/intel/igb/igb_ethtool.c下。相信你這次能徹底理解ethtool的工作原理了吧？這個命令之所以能查看網卡收發包統計、能修改網卡自適應模式、能調整RX 隊列的數量和大小，是因為ethtool命令最終調用到了網卡驅動的相應方法，而不是ethtool本身有這個超能力。

第6步注冊的igb_netdev_ops中包含的是igb_open等函數，該函數在網卡被啟動的時候會被調用。

//file: drivers/net/ethernet/intel/igb/igb_main.
......
static const struct net_device_ops igb_netdev_ops = {
  .ndo_open               = igb_open,
  .ndo_stop               = igb_close,
  .ndo_start_xmit         = igb_xmit_frame,
  .ndo_get_stats64        = igb_get_stats64,
  .ndo_set_rx_mode        = igb_set_rx_mode,
  .ndo_set_mac_address    = igb_set_mac,
  .ndo_change_mtu         = igb_change_mtu,
  .ndo_do_ioctl           = igb_ioctl,......
}

第7步中，在igb_probe初始化過程中，還調用到了igb_alloc_q_vector。他注冊了一個NAPI機制所必須的poll函數，對于igb網卡驅動來說，這個函數就是igb_poll,如下代碼所示。

static int igb_alloc_q_vector(struct igb_adapter *adapter,
int v_count, int v_idx,
int txr_count, int txr_idx,
int rxr_count, int rxr_idx)
{
    ......
/* initialize NAPI */
    netif_napi_add(adapter- >netdev, &q_vector- >napi,
               igb_poll, 64);
}

l 啟動網卡

當上面的初始化都完成以后，就可以啟動網卡了?；貞浨懊婢W卡驅動初始化時，我們提到了驅動向內核注冊了 structure net_device_ops 變量，它包含著網卡啟用、發包、設置mac 地址等回調函數（函數指針）。當啟用一個網卡時（例如，通過 ifconfig eth0 up），net_device_ops 中的 igb_open方法會被調用。它通常會做以下事情：

//file: drivers/net/ethernet/intel/igb/igb_main.c
static int __igb_open(struct net_device *netdev, bool resuming)
{
/* allocate transmit descriptors */
    err = igb_setup_all_tx_resources(adapter);
/* allocate receive descriptors */
    err = igb_setup_all_rx_resources(adapter);
/* 注冊中斷處理函數 */
    err = igb_request_irq(adapter);
if (err)
goto err_req_irq;
/* 啟用NAPI */
    for (i = 0; i < adapter- >num_q_vectors; i++)
        napi_enable(&(adapter- >q_vector[i]- >napi));
    ......
}

在上面__igb_open函數調用了igb_setup_all_tx_resources,和igb_setup_all_rx_resources。在igb_setup_all_rx_resources這一步操作中，分配了RingBuffer，并建立內存和Rx隊列的映射關系。（Rx Tx 隊列的數量和大小可以通過 ethtool 進行配置）。我們再接著看中斷函數注冊igb_request_irq:

static int igb_request_irq(struct igb_adapter *adapter)
{
if (adapter- >msix_entries) {
        err = igb_request_msix(adapter);
if (!err)
goto request_done;
        ......
    }
}

static int igb_request_msix(struct igb_adapter *adapter)
{
    ......
for (i = 0; i < adapter- >num_q_vectors; i++) {
        ...
        err = request_irq(adapter- >msix_entries[vector].vector,
                  igb_msix_ring, 0, q_vector- >name,
    }

在上面的代碼中跟蹤函數調用， __igb_open => igb_request_irq => igb_request_msix, 在igb_request_msix中我們看到了，對于多隊列的網卡，為每一個隊列都注冊了中斷，其對應的中斷處理函數是igb_msix_ring（該函數也在drivers/net/ethernet/intel/igb/igb_main.c下）。我們也可以看到，msix方式下，每個 RX 隊列有獨立的MSI-X 中斷，從網卡硬件中斷的層面就可以設置讓收到的包被不同的 CPU處理。（可以通過 irqbalance ，或者修改 /proc/irq/IRQ_NUMBER/smp_affinity能夠修改和CPU的綁定行為）。

到此準備工作完成。

Linux網絡包：中斷到網絡層接收

網卡收包從整體上是網線中的高低電平轉換到網卡FIFO存儲再拷貝到系統主內存（DDR3）的過程，其中涉及到網卡控制器，CPU，DMA，驅動程序，在OSI模型中屬于物理層和鏈路層，如下圖所示。

l 中斷上半文

物理網卡收到數據包的處理流程如上圖左半部分所示，詳細步驟如下：

網卡收到數據包，先將高低電平轉換到網卡fifo存儲，網卡申請ring buffer的描述，根據描述找到具體的物理地址，從fifo隊列物理網卡會使用DMA將數據包寫到了該物理地址,，其實就是skb_buffer中.
這個時候數據包已經被轉移到skb_buffer中，因為是DMA寫入，內核并沒有監控數據包寫入情況，這時候NIC觸發一個硬中斷，每一個硬件中斷會對應一個中斷號，且指定一個vCPU來處理，如上圖vcpu2收到了該硬件中斷.
硬件中斷的中斷處理程序，調用驅動程序完成，a.啟動軟中斷
硬中斷觸發的驅動程序會禁用網卡硬中斷，其實這時候意思是告訴NIC，再來數據不用觸發硬中斷了，把數據DMA拷入系統內存即可
硬中斷觸發的驅動程序會啟動軟中斷，啟用軟中斷目的是將數據包后續處理流程交給軟中斷慢慢處理，這個時候退出硬件中斷了，但是注意和網絡有關的硬中斷，要等到后續開啟硬中斷后，才有機會再次被觸發
NAPI觸發軟中斷，觸發napi系統
消耗ringbuffer指向的skb_buffer
NAPI循環處理ringbuffer數據，處理完成
啟動網絡硬件中斷，有數據來時候就可以繼續觸發硬件中斷，繼續通知CPU來消耗數據包.

其實上述過程過程簡單描述為：網卡收到數據包，DMA到內核內存，中斷通知內核數據有了，內核按輪次處理消耗數據包，一輪處理完成后，開啟硬中斷。其核心就是網卡和內核其實是生產和消費模型，網卡生產，內核負責消費，生產者需要通知消費者消費；如果生產過快會產生丟包，如果消費過慢也會產生問題。也就說在高流量壓力情況下，只有生產消費優化后，消費能力夠快，此生產消費關系才可以正常維持，所以如果物理接口有丟包計數時候，未必是網卡存在問題，也可能是內核消費的太慢。

關于CPU與ksoftirqd的關系可以描述如下：

l 網卡收到的數據寫入到內核內存

NIC在接收到數據包之后，首先需要將數據同步到內核中，這中間的橋梁是rx ring buffer。它是由NIC和驅動程序共享的一片區域，事實上，rx ring buffer存儲的并不是實際的packet數據，而是一個描述符，這個描述符指向了它真正的存儲地址，具體流程如下：

驅動在內存中分配一片緩沖區用來接收數據包，叫做sk_buffer;
將上述緩沖區的地址和大?。唇邮彰枋龇?，加入到rx ring buffer。描述符中的緩沖區地址是DMA使用的物理地址;
驅動通知網卡有一個新的描述符;
網卡從rx ring buffer中取出描述符，從而獲知緩沖區的地址和大小;
網卡收到新的數據包;
網卡將新數據包通過DMA直接寫到sk_buffer中。

當驅動處理速度跟不上網卡收包速度時，驅動來不及分配緩沖區，NIC接收到的數據包無法及時寫到sk_buffer，就會產生堆積，當NIC內部緩沖區寫滿后，就會丟棄部分數據，引起丟包。這部分丟包為rx_fifo_errors，在 /proc/net/dev中體現為fifo字段增長，在ifconfig中體現為overruns指標增長。

l 中斷下半文

ksoftirqd內核線程處理軟中斷，即中斷下半部分軟中斷處理過程：

1.NAPI（以e1000網卡為例）：net_rx_action() -> e1000_clean() -> e1000_clean_rx_irq() -> e1000_receive_skb() -> netif_receive_skb()

2.非NAPI（以dm9000網卡為例）：net_rx_action() -> process_backlog() -> netif_receive_skb()

最后網卡驅動通過netif_receive_skb()將sk_buff上送協議棧。

內核線程初始化的時候，我們介紹了ksoftirqd中兩個線程函數ksoftirqd_should_run和run_ksoftirqd。其中ksoftirqd_should_run代碼如下：

#define local_softirq_pending() 

__IRQ_STAT(smp_processor_id(), __softirq_pending)

這里看到和硬中斷中調用了同一個函數local_softirq_pending。使用方式不同的是硬中斷位置是為了寫入標記，這里僅僅只是讀取。如果硬中斷中設置了NET_RX_SOFTIRQ,這里自然能讀取的到。接下來會真正進入線程函數中run_ksoftirqd處理：

static void run_ksoftirqd(unsigned int cpu)
{
    local_irq_disable();
if (local_softirq_pending()) {
        __do_softirq();
        rcu_note_context_switch(cpu);
        local_irq_enable();
        cond_resched();
return;
    }
    local_irq_enable();
}

在__do_softirq中，判斷根據當前CPU的軟中斷類型，調用其注冊的action方法。

asmlinkage void __do_softirq(void)

在網絡子系統初始化小節，我們看到我們為NET_RX_SOFTIRQ注冊了處理函數net_rx_action。所以net_rx_action函數就會被執行到了。

這里需要注意一個細節，硬中斷中設置軟中斷標記，和ksoftirq的判斷是否有軟中斷到達，都是基于smp_processor_id()的。這意味著只要硬中斷在哪個CPU上被響應，那么軟中斷也是在這個CPU上處理的。所以說，如果你發現你的Linux軟中斷CPU消耗都集中在一個核上的話，做法是要把調整硬中斷的CPU親和性，來將硬中斷打散到不通的CPU核上去。

我們再來把精力集中到這個核心函數net_rx_action上來。

static void net_rx_action(struct softirq_action *h)
{
struct softnet_data *sd = &__get_cpu_var(softnet_data);
    unsigned long time_limit = jiffies + 2;
int budget = netdev_budget;
void *have;
    local_irq_disable();
while (!list_empty(&sd- >poll_list)) {
        ......
        n = list_first_entry(&sd- >poll_list, struct napi_struct, poll_list);
        work = 0;
if (test_bit(NAPI_STATE_SCHED, &n- >state)) {
            work = n- >poll(n, weight);
            trace_napi_poll(n);
        }
        budget -= work;
    }
}

函數開頭的time_limit和budget是用來控制net_rx_action函數主動退出的，目的是保證網絡包的接收不霸占CPU不放。等下次網卡再有硬中斷過來的時候再處理剩下的接收數據包。其中budget可以通過內核參數調整。這個函數中剩下的核心邏輯是獲取到當前CPU變量softnet_data，對其poll_list進行遍歷, 然后執行到網卡驅動注冊到的poll函數。對于igb網卡來說，就是igb驅動力的igb_poll函數了。

/**
 *  igb_poll - NAPI Rx polling callback
 *  @napi: napi polling structure
 *  @budget: count of how many packets we should handle
 **/
static int igb_poll(struct napi_struct *napi, int budget)
{
    ...
if (q_vector- >tx.ring)
        clean_complete = igb_clean_tx_irq(q_vector);
if (q_vector- >rx.ring)
        clean_complete &= igb_clean_rx_irq(q_vector, budget);
    ...
}

在讀取操作中，igb_poll的重點工作是對igb_clean_rx_irq的調用。

static bool igb_clean_rx_irq(struct igb_q_vector *q_vector, const int budget)
{
    ...
do {
/* retrieve a buffer from the ring */
        skb = igb_fetch_rx_buffer(rx_ring, rx_desc, skb);
/* fetch next buffer in frame if non-eop */
        if (igb_is_non_eop(rx_ring, rx_desc))
continue;
        }
/* verify the packet layout is correct */
        if (igb_cleanup_headers(rx_ring, rx_desc, skb)) {
            skb = NULL;
continue;
        }
/* populate checksum, timestamp, VLAN, and protocol */
        igb_process_skb_fields(rx_ring, rx_desc, skb);
        napi_gro_receive(&q_vector- >napi, skb);
}

igb_fetch_rx_buffer和igb_is_non_eop的作用就是把數據幀從RingBuffer上取下來。為什么需要兩個函數呢？因為有可能幀要占多多個RingBuffer，所以是在一個循環中獲取的，直到幀尾部。獲取下來的一個數據幀用一個sk_buff來表示。收取完數據以后，對其進行一些校驗，然后開始設置sbk變量的timestamp, VLAN id, protocol等字段。接下來進入到napi_gro_receive中:

//file: net/core/dev.c
gro_result_t napi_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
{
    skb_gro_reset_offset(skb);
return napi_skb_finish(dev_gro_receive(napi, skb), skb);
}

dev_gro_receive這個函數代表的是網卡GRO特性，可以簡單理解成把相關的小包合并成一個大包就行，目的是減少傳送給網絡棧的包數，這有助于減少 CPU 的使用量。我們暫且忽略，直接看napi_skb_finish, 這個函數主要就是調用了netif_receive_skb。

//file: net/core/dev.c
static gro_result_t napi_skb_finish(gro_result_t ret, struct sk_buff *skb)
{
switch (ret) {
case GRO_NORMAL:
if (netif_receive_skb(skb))
            ret = GRO_DROP;
break;
    ......
}

在netif_receive_skb中，數據包將被送到協議棧中，接下來在網絡層協議層的處理流程便不再贅述。

總結

l send發包過程

1、網卡驅動創建tx descriptor ring（一致性DMA內存），將tx descriptor ring的總線地址寫入網卡寄存器TDBA

2、協議棧通過dev_queue_xmit()將sk_buff下送網卡驅動

3、網卡驅動將sk_buff放入tx descriptor ring，更新TDT

4、DMA感知到TDT的改變后，找到tx descriptor ring中下一個將要使用的descriptor

5、DMA通過PCI總線將descriptor的數據緩存區復制到Tx FIFO

6、復制完后，通過MAC芯片將數據包發送出去

7、發送完后，網卡更新TDH，啟動硬中斷通知CPU釋放數據緩存區中的數據包

l recv收包過程

1、網卡驅動創建rx descriptor ring（一致性DMA內存），將rx descriptor ring的總線地址寫入網卡寄存器RDBA

2、網卡驅動為每個descriptor分配sk_buff和數據緩存區，流式DMA映射數據緩存區，將數據緩存區的總線地址保存到descriptor

3、網卡接收數據包，將數據包寫入Rx FIFO

4、DMA找到rx descriptor ring中下一個將要使用的descriptor

5、整個數據包寫入Rx FIFO后，DMA通過PCI總線將Rx FIFO中的數據包復制到descriptor的數據緩存區

6、復制完后，網卡啟動硬中斷通知CPU數據緩存區中已經有新的數據包了，CPU執行硬中斷函數：

NAPI（以e1000網卡為例）：e1000_intr() -> __napi_schedule() -> __raise_softirq_irqoff(NET_RX_SOFTIRQ)

非NAPI（以dm9000網卡為例）：dm9000_interrupt() -> dm9000_rx() -> netif_rx() -> napi_schedule() -> __napi_schedule() -> __raise_softirq_irqoff(NET_RX_SOFTIRQ)

7、ksoftirqd執行軟中斷函數net_rx_action()：

NAPI（以e1000網卡為例）：net_rx_action() -> e1000_clean() -> e1000_clean_rx_irq() -> e1000_receive_skb() -> netif_receive_skb()

非NAPI（以dm9000網卡為例）：net_rx_action() -> process_backlog() -> netif_receive_skb()

8、網卡驅動通過netif_receive_skb()將sk_buff上送協議棧

Linux網絡子系統的分層

Linux網絡子系統實現需要：

支持不同的協議族 ( INET, INET6, UNIX, NETLINK...)
支持不同的網絡設備
支持統一的BSD socket API

需要屏蔽協議、硬件、平臺(API)的差異，因而采用分層結構：

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

接口

接口

+關注

關注
33

文章
8691

瀏覽量
151909
Linux

Linux

+關注

關注
87

文章
11345

瀏覽量
210378
網絡設備

網絡設備

+關注

關注
0

文章
318

瀏覽量
29765
傳輸層

傳輸層

+關注

關注
0

文章
30

瀏覽量
10934

Linux驅動分析之input子系統

Linux內核為了能夠處理各種不同類型的輸入設備，比如: 觸摸屏，鼠標 , 鍵盤 , 操縱桿等設備，設計并實現了Linux 輸入子系統 ，它為驅動和應用提供了統一的接口函數，方便

發表于 02-01 10:38 ?564次閱讀

Linux LED子系統詳解

Linux LED子系統詳解

發表于 06-10 10:37 ?1591次閱讀

<b class='flag-5'>Linux</b> LED<b class='flag-5'>子系統</b>詳解

網絡子系統在鏈路層的收發過程剖析

網絡子系統在鏈路層的收發過程剖析

發表于 08-15 17:58

嵌入式linux內核的五個子系統

嵌入式linux內核的五個子系統分享到： Linux內核主要由進程調度（SCHED）、內存管理（MM）、虛擬文件系統（VFS）、網絡接口（

發表于 09-10 14:09

基于USB設備的Linux網絡驅動程序開發

介紹Linux 的體系結構及其網絡子系統，并結合USB 設備在Linux 下的訪問機制，給出了一種USB 網絡驅動程序的設計方法。該設計方法充分利用

發表于 08-11 11:23 ?20次下載

基于Linux內核輸入子系統的驅動研究

Linux因其完全開放的特性和穩定優良的性能深受歡迎，當推出了內核輸入子系統后，更方便了嵌入式領域的驅動開放。介紹了Linux的設備驅動基礎，詳細闡述了基于Linux內核輸入

發表于 09-12 16:38 ?23次下載

Linux內核輸入子系統的驅動研究

Linux內核輸入子系統的驅動研究

發表于 10-31 14:41 ?14次下載

詳細了解Linux設備模型中的input子系統

linux輸入子系統（linux input subsystem）從上到下由三層實現，分別為：輸入子系統事件處理層（EventHandler

發表于 05-12 09:04 ?1068次閱讀

驅動之路-網絡設備驅動基本原理和框架

Linux網絡子系統的頂部是系統調用接口層。它為用戶空間提供的應用程序提供了一種訪問內核網絡子系統的方法（socket）。位于其下面是一個協議無關層，它提供一種通用的方法來使用傳輸層協

發表于 05-15 16:57 ?1270次閱讀

Linux網絡子系統的DMA機制是如何的實現的

先用“圖1”大體上說明幾種控制方式的區別，其中黃線代表程序輪詢方式，綠線代表中斷方式，紅線代表DMA方式，黑線代表RDMA方式，藍線代表公用的線。可以看出DMA方式與程序輪詢方式還有中斷方式的區別是傳輸數據跳過了CPU，直接和主存交流。

發表于 06-03 16:05 ?4472次閱讀

TensorRT條件用于實現網絡子圖的條件執行

IIfConditional實現了一個 if-then-else 流控制結構，該結構提供基于動態布爾輸入的網絡子圖的條件執行。它由一個布爾標量predicate condition和兩個分支子圖定義

發表于 05-18 10:02 ?1213次閱讀

Windows 子系統助力 Linux 2.0

Windows 子系統助力 Linux 2.0

發表于 01-04 11:17 ?691次閱讀

Linux系統中NFC子系統架構分析

目前在Linux系統中，每個廠家都使用不同的方式實現NFC驅動，然后自己在應用層上面做適配。但是Linux也已經推出NFC子系統，很多廠家也

發表于 01-04 14:01 ?2139次閱讀

Linux reset子系統有什么功能

Linux reset子系統 reset子系統非常簡單，與clock子系統非常類似，但在驅動實現上，reset驅動更簡單。因為clock驅

發表于 09-27 14:06 ?811次閱讀

Simplelink? Wi-Fi? CC3x3x網絡子系統電源管理

電子發燒友網站提供《Simplelink? Wi-Fi? CC3x3x網絡子系統電源管理.pdf》資料免費下載

發表于 09-23 11:17 ?0次下載