本溪棋牌娱乐人多吗,AG全讯网香港马会,金沙集团官方上网导航(中国)·官方网站

Awk是什么

Awk、sed與grep，俗稱Linux下的三劍客，它們之前有很多相似點，但是同樣也各有各的特色，相似的地方是它們都可以匹配文本，其中sed和awk還可以用于文本編輯，而grep則不具備這個功用。sed是一種非交互式且面向字符流的編輯器（a “non-interac tive” stream-oriented editor），而awk則是一門模式匹配的編程語言，因為它的主要功能是用于匹配文本并處理，同時它有一些編程語言才有的語法，例如函數、分支循環語句、變量等等，當然比起我們常見的編程語言，Awk相對比較簡單。

使用Awk，我們可以做以下事情：

將文本文件視為由字段和記錄組成的文本數據庫；

在操作文本數據庫的過程中能夠使用變量；

能夠使用數學運算和字符串操作；

能夠使用常見的編程結構，例如條件分支與循環；

能夠格式化輸出；

能夠自定義函數；

能夠在awk腳本中執行UNIX命令；

能夠處理UNIX命令的輸出結果；

裝備以上功能，awk能夠做得事情非常多。但千里之行，始于足下，我們首先從最基本的命令行語法開始，一步一步得走入awk的編程世界。

命令行語法

同sed一樣，awk的命令行語法也有兩種形式：

這里的program類似sed中的script，因為我們一直強調awk是一門編程語言，所以將awk的腳本視為一段代碼。而awk的腳本同樣可以寫到一個文件中，并通過-f參數指定，這一點和sed是一樣的。program一般多個pattern和action序列組成，當讀入的記錄匹配pattern時，才會執行相應的action命令。這里有一點要注意，在第一種形式中，除去命令行選項外，program參數一定要位于第一個位置。

Awk的輸入被解析成多個記錄（Record），默認情況下，記錄的分隔符是，因此可以認為一行就是一個記錄，記錄的分隔符可以通過內置變量RS更改。當記錄匹配某個pattern時，才會執行后續的action命令。

而每個記錄由進一步地被分隔成多個字段（Field），默認情況下字段的分隔符是空白符，例如空格、制表符等等，也可以通過-F ERE選項或者內置變量FS更改。在awk中，可以通過$1，$2…來訪問對應位置的字段，同時$0存放整個記錄，這一點有點類似shell下的命令行位置參數。關于這些內容，我們會在下面詳細介紹，這里你只要知道有這些東西就好。

標準的awk命令行參數主要由以下三個：

-F ERE：定義字段分隔符，該選項的值可以是擴展的正則表達式（ERE）；

-f progfile：指定awk腳本，可以同時指定多個腳本，它們會按照在命令行中出現的順序連接在一起；

-v assignment：定義awk變量，形式同awk中的變量賦值，即name=value，賦值發生在awk處理文本之前；

為了便于理解，這里舉幾個簡單的例子。通過-F參數設置冒號:為分隔符，并打印各個字段：

在awk的腳本中訪問通過-v選項設置的變量：

從上面可以看到，通過-v選項設置的變量在BEGIN的位置就可以訪問了。BEGIN是一個特殊的pattern，它在awk處理輸入之前就會執行，可以認為是一個初始化語句，與此對應的還有END。

好像還沒介紹如何指定處理的文件，是不是最后的argument就是指定的文件？在看我這本書之前，我也是這樣認為的，但是實際上arguemnt有兩種形式，它們分別是輸入文件（file）和變量賦值（assignment）。

awk可以同時指定多個輸入文件，如果輸入文件的文件名為’-‘，表示從標準輸入讀取內容。

變量賦值類似-v選項，它的形式為name=value。awk中的變量名同一般的編程語言無太多區別，但是不能同awk的保留關鍵字重名，可以查看awk的man手冊查詢哪些是保留關鍵字。而變量值只有兩種形式：字符串和數值。變量賦值必須位于腳本參數的后面，與文件名參數無先后順序的要求，但是位于不同位置的賦值它的執行時機是不同的。

我們用實際的例子來解釋這個區別，假設有兩個文件：a和b，它們的內容分別如下所示：

為了說明賦值操作發生的時機，我們在BEGIN，正常處理，END三個地方都打印變量的值。

第一種情況：變量賦值位于所有文件名參數之前

結果：賦值操作發生在正常處理之前，BEGIN動作之后。

第二種情況：變量賦值位于所有文件名之后：

結果：賦值操作發生在正常處理之后，END動作之前。

第三種情況：變量賦值位于文件名之間：

結果：賦值操作發生在處理前面的文件之后，并且位于處理后面的文件之前；

總結如下：

如果變量賦值在第一個文件參數之前，在BEGIN動作之后執行，影響到正常處理和END動作；

如果變量賦值在最后一個文件參數之后，在END動作之前執行，僅影響END動作；

如果文件參數不存在，情況同1所述；

如果變量賦值位于多個文件參數之間，在變量賦值前面的文件被處理后執行，影響到后續文件的處理和END動作；

所以變量賦值一定要考慮清楚用途，否則比較容易出錯，不過一般情況下也不會用到變量賦值。

自然地大家會將變量賦值與-v assignment選項進行比較，賦值的形式是一致的，但是-v選項的執行時機比變量賦值要早：

可見，-v選項的賦值操作在BEGIN動作之前就執行了。

變量賦值一定要小心不要與保留關鍵字重名，否則會報錯：

記錄（Record）與字段（Field)

對于數據庫來說，一個數據庫表是由多條記錄組成的，每一行表示一條記錄（Record）。每條記錄由多列組成，每一列表示一個字段（Field)。Awk將一個文本文件視為一個文本數據庫，因此它也有記錄和字段的概念。默認情況下，記錄的分隔符是回車，字段的分隔符是空白符，所以文本文件的每一行表示一個記錄，而每一行中的內容被空白分隔成多個字段。利用字段和記錄，awk就可以非常靈活地處理文件的內容。

可以通過-F選項來修改默認的字段分隔符，例如/etc/passwd的每一行都是由冒號分隔成多個字段的，所以這里就需要將分隔符設置成冒號：

這里通過$1引用第一人字段，類似地$2表示第二個字段，$3表示第三個字段…. $0則表示整個記錄。內置變量NF記錄著字段的個數，所以$NF表示最后一個字段：

當然，$(NF-1)表示倒數第二個。

內置變量FS也可以用于更改字段分隔符，它記錄著當前的字段分隔符：

記錄的分隔符可以通過內置變量RS更改：

如果將RS設置成空，行為有就一點怪異了，它會將連續不為空行的所有行（一個段落）當作一個記錄，而且強制回車為字段分隔符：

這里，我們將變量賦值放到BEGIN動作中執行，因為BEGIN動作是在文件處理之前執行的，專門用于放初始化的語句。FS的賦值在這里是無效的，awk依然使用回車符來分隔字段。

腳本（Script）組成

命令行中的program部分，可以稱為awk代碼,也可以稱為awk腳本。一段awk腳本是由多個’pattern { action }‘序列組成的。action是一個或者多個語句，它在輸入行匹配pattern的時候被執行。如果pattern為空，表明這個action會在每一行處理時都會被執行。下面的例子簡單地打印文件的每一行，這里不帶任何參數的print語句打印的是整個記錄，類似’print $0‘：

除了pattern { action }，還可以在腳本中定義自定義的函數，函數定義格式如下所示：

函數的參數列表用逗號分隔，參數默認是局部變量，無法在函數之外訪問，而在函數中定義的變量為全局變量，可以在函數之外訪問，如：

Awk腳本中的語句使用空行或者分號分隔，使用分號可以放在同一行，不過有時候會影響可讀性，尤其是分支或循環結構中，很容易出錯。

如果Awk中的一個語句太長，要分成多行，可以在行為使用反斜杠’'：

這里我們將腳本寫到文件中，并通過-f參數來指定。但是，在一些特殊符號之后，是可以直接換行的，例如”, { &&

”。

模式（Pattern）

模式是awk中比較重要的一部分，它有以下幾種情況：

/regular expression/：擴展的正則表達式（Extended Regular Expression），關于ERE可以參考這篇文章；

relational expression：關系表達式，例如大于、小于、等于，關系表達式結果為true表示匹配；

BEGIN：特殊的模式，在第一個記錄處理之前被執行，常用于初始化語句的執行；

END：特殊的模式，在最后一個記錄處理之前被執行，常用于輸出匯總信息；

pattern, pattern：模式對，匹配兩者之間的所有記錄，類似sed的地址對；

例如查找匹配數字3的行：

相反地，可以在在正則表達式之前加上’!’表示不匹配：

除了BEGIN和END這兩個特殊的模式外，其余的模式都可以使用’&&’或者’

’運算符組合，前者表示邏輯與，后者表示邏輯或：

前面的正則都是整行匹配，有時候僅僅需要匹配某個字符，這樣我們可以用表達式$n ~ /ere/：

有時候我們只想顯示特定和行，例如顯示第一行：

正則表達式（Regular Expression）

正則表達式的內容介紹起來太麻煩，還是推薦同學閱讀現有的文章（如Linux/Unix工具與正則表達式的POSIX規范），里面對各個流派的正則表達式歸納地很清楚了。

表達式（Expressions）

表達式可以由常量、變量、運算符和函數組成，常數和變量的值可以為字符串和數值。

Awk中的變量有三種類型：用戶定義的變量，內置變量和字段變量。其中，內置變量名都是大寫的。變量并不非一定要被聲明或者被初始化，未初始化的字符串變量的值為””，未初始化的數值變量的值為0。字段變量可以用$n來引用，n的取值范圍為[0,NF]。n可以為一個變量，例如$NF代碼最后一個字段，而$(NF-1)表示倒數第二個字段。

數組

數組是一種特殊的變量，在awk中，比較特殊地是，數組的下標可以為數字或者字符串。數組的賦值很簡單，下面將value賦值給數組下標為index的元素：array[index]=value

可以用for..in..語法遍歷數組元素，其中item是數組元素對應的下標：for (item in array)

當然也可以在if分支判斷中使用in操作符：if (item in array)

一個完整的例子如下所示：

內置變量

Awk在內部維護了許多內置變量，或者稱為系統變量，例如之前提到的FS、RS等等。常見的內置變量如下表所示

變量名	描述
ARGC	命令行參數的各個，即ARGV數組的長度
ARGV	存放命令行參數
CONVFMT	定義awk內部數值轉換成字符串的格式，默認值為”%.6g”
OFMT	定義輸出時數值轉換成字符串的格式，默認值為”%.6g”
ENVIRON	存放系統環境變量的關聯數組
FILENAME	當前被處理的文件名
NR	記錄的總個數
FNR	當前文件中的記錄的總個數
FS	字段分隔符，默認為空白
NF	每個記錄中字段的個數
RS	記錄的分隔符，默認為回車
OFS	輸出時字段的分隔符，默認為空白
ORS	輸出時記錄的分隔符，默認為回車
RLENGTH	被match函數匹配的子串長度
RSTART	被match函數匹配的子串位于目標字符串的起始下標

下面主要介紹幾個比較難理解的內置變量：

ARGV與ARGC

ARGV與ARGC的意思比較好理解，就像C語言main(int argc, char **argv)。ARGV數組的下標從0開始到ARGC-1，它存放的是命令行參數，并且排除命令行選項（例如-v/-f）以及program部分。因此事實上ARGV只是存儲argument的部分，即文件名（file）以及命令行變量賦值兩部分的內容。

通過下面的例子可以大概了解ARGC與ARGV的用法：

ARGV的用法不僅限于此，它是可以修改的，可以更改數組元素的值，可以增加數組元素或者刪除數組元素。

更改ARGV元素的值

假設我們有a, b兩個文件，它們各有一行內容：file a和file b。現在利用ARGV，我們可以做到偷梁換柱：

這里要注意ARGV[1]=”b”的引號不能缺少，否則ARGV[1]=b會將變量b的值賦值給ARGV[1]。

當awk處理完一個文件之后，它會從ARGV的下一個元素獲取參數，如果是一個文件則繼續處理，如果是一個變量賦值則執行賦值操作：

當下一個元素為空時，則跳過不處理，這樣可以避開處理某個文件：

上面的例子中a這個文件就被跳過了。

而當下一個元素的值為”-”時，表明從標準輸入讀取內容：

刪除ARGV元素

刪除ARGV元素和將元素的值賦值為空的效果是一樣的，它們都會跳轉對某個參數的處理：

刪除數組元素可以用delete語句。

增加ARGV元素

我第一次看到ARGV變量的時候就在想，能不能利用ARGV變量避免提供命令行參數，就像這樣:awk 'BEGIN{ARGV[1]="a";} {print}'

但是事實上這樣不行，awk會依然從標準輸入中獲取內容。下面的方法倒是可以，首先增加ARGC的值，再增加ARGV元素，我到現在也沒搞懂這兩者的區別：

CONVFMT與OFMT

Awk中允許數值到字符串相互轉換，其中內置變量CONVFMT定義了awk內部數值到字符串轉換的格式，它的默認值為”%.6g”：

通過更改CONVFMT，我們可以定義自己的轉換格式：

與此對應地還有一個內置變量OFMT，它與CONVFMT的作用是類似的，只不過是影響輸出的時候數字轉換成字符串的格式：

ENVIRON

ENVIRON是一個存放系統環境變量的關聯數組，它的下標是環境變量名稱，值是相應環境變量的值。例如：

利用環境變量也可以將值傳遞給awk：

可以利用for..in循環遍歷ENVIRON數組：

RLENGTH與RSTART

RLENGTH與RSTART都是與match函數相關的，前者表示匹配的子串長度，后者表示匹配的子串位于目標字符串的起始下標。例如：

運算符

表達式中必然少不了運算符，awk支持的運算符可以參見man手冊中的“Expressions in awk”一小節內容：

語句（Statement）

到目前為止，用得比較多的語句就是print，其它的還有printf、delete、break、continue、exit、next等等。這些語句與函數不同的是，它們不會使用帶括號的參數，并且沒有返回值。不過也有意外，比如printf就可以像函數一樣的調用：

break和continue語句，大家應該比較了解，分別用于跳出循環和跳到下一個循環。

delete用于刪除數組中的某個元素，這個我們在上面介紹ARGV的時候也使用過。

exit的用法顧名思義，就是退出awk的處理，然后會執行END部分的內容：

next語句類似sed的n命令，它會讀取下一條記錄，并重新回到腳本的最開始處執行：

從上面可以看出next后面的print語句不會執行。

print與printf語句是使用最多的，它們將內容輸出到標準輸出。注意在print語句中，輸出的變量之間帶不帶逗號是有區別的：

print輸出時，字段之間的分隔符可以由OFS重新定義：

除此之外，print的輸出還可以重定向到某個文件中或者某個命令：

假設有這一樣一個文件，第一列是語句名稱，第二列是對應的說明：

現在我們要將兩列的內容分別輸出到statement.txt和description.txt兩個文件中：

下面是一個重定向到命令的例子，假設我們要對下面的文件進行排序：

可以通過將print的內容重定向到”sort -n”命令：

printf命令的用法與print類似，也可以重定向到文件或者輸出，只不過printf比print多了格式化字符串的功能。printf的語法也大多數語言包括bash的printf命令類似，這里就不多介紹了。

數學函數

awk中支持以下數學函數：

atan2(y,x)：反正切函數；

cos(x)：余弦函數；

sin(x)：正弦函數；

exp(x)：以自然對數e為底指數函數；

log(x)：計算以e 為底的對數值；

sqrt(x)：開平方函數；

int(x)：將數值轉換成整數（絕對值）；

rand()：返回0到1的一個隨機數值，不包含1；

srand([expr])：設置隨機種子，一般與rand函數配合使用，如果參數為空，默認使用當前時間為種子；

例如，我們使用rand()函數生成一個隨機數值：

但是你會發現，每次awk執行都會生成同樣的隨機數，但是在一次執行過程中產生的隨機數又是不同的。因為每次awk執行都使用了同樣的種子，所以我們可以用srand()函數來設置種子:

這樣每次生成的隨機數就不一樣了。

利用rand()函數我們也可以生成1到n的整數：

字符串函數

awk中包含大多數常見的字符串操作函數。

sub

sub(ere, repl[, in])

描述：簡單地說，就是將in中匹配ere的部分替換成repl，返回值是替換的次數。如果in參數省略，默認使用$0。替換的動作會直接修改變量的值。

下面是一個簡單的替換的例子：

在repl參數中&是一個元字符，它表示匹配的內容，例如：

gsub

gsub(ere, repl[, in])

描述：同sub()函數功能類似，只不過是gsub()是全局替換，即替換所有匹配的內容。

index

index(s, t)

描述：返回字符串t在s中出現的位置，注意這里位置是從1開始計算的，如果沒有找到則返回0。

例如：

length

length[([s])]

描述：返回字符串的長度，如果參數s沒有指定，則默認使用$0作為參數。

例如：

match

match(s, ere)

描述：返回字符串s匹配ere的起始位置，如果不匹配則返回0。該函數會定義RSTART和RLENGTH兩個內置變量。RSTART與返回值相同，RLENGTH記錄匹配子串的長度，如果不匹配則為-1。

例如：

split

split(s, a[, fs])

描述：將字符串按照分隔符fs，分隔成多個部分，并存到數組a中。注意，存放的位置是從第1個數組元素開始的。如果fs為空，則默認使用FS分隔。函數返回值分隔的個數。

例如：

這里有一個奇怪的地方是for..in..輸出的數組不是按順序輸出的，如果要按順序輸出可以用常規的for循環:

sprintf

sprintf(fmt, expr, expr, …)

描述：類似printf，只不過不會將格式化后的內容輸出到標準輸出，而是當作返回值返回。

例如：

substr

substr(s, m[, n])

描述：返回從位置m開始的，長度為n的子串，其中位置從1開始計算，如果未指定n或者n值大于剩余的字符個數，則子串一直到字符串末尾為止。

例如：

tolower

tolower(s)

描述：將字符串轉換成小寫字符。

例如：

toupper

toupper(s)

描述：將字符串轉換成大寫字符。

例如

I/O處理函數

getline

getline的用法相對比較復雜，它有幾種不同的形式。不過它的主要作用就是從輸入中每次獲取一行輸入。

expression | getline [var]

這種形式將前面管道前命令輸出的結果作為getline的輸入，每次讀取一行。如果后面跟有var，則將讀取的內容保存到var變量中，否則會重新設置$0和NF。

例如，我們將上面的statement.txt文件的內容顯示作為getline的輸入：

上面的例子中命令要用雙引號，cat statement.txt，這一點同print/printf是一樣的。

如果不加var，則直接寫到$0中，注意NF值也會被更新：

getline [var]

第二種形式是直接使用getline，它會從處理的文件中讀取輸入。同樣地，如果var沒有，則會設置$0，并且這時候會更新NF, NR和FNR：

getline [var] < expression

第三種形式從expression中重定向輸入，與第一種方法類似，這里就不加贅述了。

close函數可以用于關閉已經打開的文件或者管道，例如getline函數的第一種形式用到管道，我們可以用close函數把這個管道關閉，close函數的參數與管道的命令一致：

但是每次讀了一行后，關閉管道，然后重新打開又重新讀取第一行就死循環了。所以要慎用，一般情況下也很少會用到close函數。

system

這個函數很簡單，就是用于執行外部命令，例如：

結束語

快速了解Awk系列的幾篇文章相對比較粗糙，我是參考Awk的man手冊以及《Sed & Awk》附錄B總結而成的，但是應該可以讓大家對awk有一個大致的了解，歡迎大家一起交流。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Linux

Linux

+關注

關注
87

文章
11345

瀏覽量
210400

原文標題：Linux Awk用法總結

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

Linux中grep、sed和awk命令詳解

今天給大家聊一聊Linux中文本操作的`三劍客:awk、grep、sed`，因其功能強大、使用頻繁，且是Linux下文本處理的得力利器，常被稱之為`文本三劍客`。`grep`常用于查找，`sed`常用于取行和替換，而`

發表于 04-26 17:20 ?3310次閱讀

<b class='flag-5'>Linux</b><b class='flag-5'>中</b>grep、sed和<b class='flag-5'>awk</b>命令<b class='flag-5'>詳解</b>

linux中comm命令用法

linux系統中comm命令用法詳解 linux系統下的comm命令是一個非常實用的文件對比命令。 comm命令功能：選擇或拒絕兩個已排序的

發表于 07-04 08:22

Liunx中awk怎么操作

Liunx中awk操作

發表于 05-29 17:13

OrCAD中創建總線及用法詳解

OrCAD中創建總線及用法詳解,如何創建總線,菜單place->bus或者右側快捷按鈕

發表于 12-02 10:18 ?2.6w次閱讀

Linux Awk用法總結

Awk、sed與grep，俗稱Linux下的三劍客，它們之間有很多相似點，但是同樣也各有各的特色，相似的地方是它們都可以匹配文本，其中sed和awk還可以用于文本編輯，而grep則不具備這個功用。

發表于 04-13 09:27 ?5626次閱讀

<b class='flag-5'>Linux</b> <b class='flag-5'>Awk</b><b class='flag-5'>用法</b>總結

linux下awk以及重定向命令如何使用？

awk語言的最基本功能是在文件或字符串中基于指定規則瀏覽和抽取信息，awk抽取信息后，才能進行其他文本操作，完整的awk腳本通常用來格式化文本文件中

發表于 10-18 17:25 ?3次下載

你會使用Linux 中的“!”驚嘆用法嗎

前言實際上，不起眼的“!”在linux中有著很多讓你驚嘆的妙用。本文就來細數那些“!”的神奇用法。

發表于 01-29 09:08 ?2622次閱讀

Linux中awk命令的格式和匹配模式

1.命令簡介 AWK 是文本處理語言，是一個強大的文本分析工具，是 Unix/Linux 環境中功能強大的數據處理引擎之一。數據可以來自標準輸入（stdin）、一個或多個文件或其它命令的輸出。它支持

發表于 03-11 16:24 ?3994次閱讀

Linux三劍客之awk實戰詳解教程

awk 強大的功能，是一般 Linux 命令無法比擬的。在本文中，我不會告訴你 awk 也是一種編程語言，免得會嚇到你。我們只需把它當做 Linux 下一款強大的文本分析工具即可。

發表于 03-31 17:12 ?2358次閱讀

CMake用法詳解

CMake用法詳解

發表于 10-25 16:28 ?2次下載

這些awk用法你會用幾個

awk也是流式編輯器，針對文檔中的行來操作，一行一行地執行。awk工具其實是很復雜的（有專門的書來介紹它的應用），對于初學者來說，只要能處理日常管理工作中的問題即可。鑒于此，阿銘僅介紹

發表于 12-05 09:32 ?622次閱讀

一文詳解Linux awk命令

Awk是一種通用腳本語言，用于高級文本處理的。它主要用作報告和分析工具。與大多數其他程序性編程語言不同。

發表于 12-07 17:34 ?1148次閱讀

關于linux的awk高效命令集錦

今天浩道跟大家分享關于linux三劍客之一的awk相關的高效命令集錦！

發表于 04-20 10:09 ?367次閱讀

linux中find用法詳解

在Linux中， find 命令是一個非常強大的工具，用于在指定目錄下查找文件和目錄。下面是 find 命令的用法和詳細解釋：語法： find [路徑] [表達式] 路徑：要查找的目錄路徑。可以

發表于 11-08 14:29 ?769次閱讀

AWK工具介紹

awk是什么 awk是一個強大的linux命令，有強大的文本格式化的能力，好比將一些文本數據格式化成專業的excel表的樣式。 awk早期在Unix上實現，我們用的

發表于 12-17 11:21 ?179次閱讀

那曲檬骨新材料有限公司

搜索歷史

Linux中的Awk定義、用法詳解

Awk是什么

評論

Linux中grep、sed和awk命令詳解

linux中comm命令用法

Liunx中awk怎么操作

OrCAD中創建總線及用法詳解

Linux Awk用法總結

linux下awk以及重定向命令如何使用？

你會使用Linux 中的“!”驚嘆用法嗎

Linux中awk命令的格式和匹配模式

Linux三劍客之awk實戰詳解教程

CMake用法詳解

這些awk用法你會用幾個

一文詳解Linux awk命令

關于linux的awk高效命令集錦

linux中find用法詳解

AWK工具介紹