博客 / 詳情

返回

網友來稿:何為正則?一正則天下,一文帶你看盡精華。

寫在開篇

不知道你們有沒有過這樣的經歷:我們去某些網站註冊帳號,當你在設置密碼的時候,網站會提示你密碼的長度範圍,以及對應的規則限制,現在假設我們不知道正則表達式,作為程序員,該如何去實現這樣一個密碼驗證呢?
關於正則表達式一直都是個讓很多我們都覺得很鬱悶的一個東西,覺得創造正則表達式的那個傢伙簡直就是個奇葩,

什麼是正則表達式?

  1. 正則表達式就是為了處理大量的文本|字符串而定義的一套規則和方法
  2. 通過定義的這些特殊符號的輔助,系統管理員就可以快速過濾,替換或輸出需要的字符 串。Linux正則表達式一般以行為單位處理。
  3. 正則表達式是一種描述一組字符串的模式,類似數字表達式,通過各種操作符組成更小 的表達式
  • 為什麼使用正則表達式呢?

    linux運維工作,大量過濾日誌工作。 簡單,高效。 正則表達式高級工具;三劍客都支持(grep,sed,awk)
  • 注意事項

    1. 正則表達式應用非常廣泛,存在於各種語言中,php perl grep sed awk 支持。ls * 通配符
    2. 但現在學的是Linux中的正則表達式,最常應用正則表達式的命令是 grep(egrep),sed,awk。
  • 正則表達式和通配符有本質區別:

    正則表達式用來找:【文件】內容,文本,字符串。一般只有三劍客支持,通配符用來找:文件名,普通命令都支持

正則表達式使用注意事項

  • 1、linux正則表達式以行為單位處理字符串
  • 2、便於區別過濾出來的字符串,一定配合grep/egrep命令學習。

正則表達式的分類

  • POSIX規範將正則表達式的分為了兩種

    1. 基本正則表達式(BRE,basic regular expression)
    2. 高級功能:擴展正則表達式(ERE,extended regular expression)
  • BRE和ERE的區別僅僅是元字符的不同:

    1. BRE(基礎正則表達式)只承認的元字符有^$.[]*其他字符識別為普通字符:()
    2. ERE (擴展正則表達式)則添加了(){}?+|等
    3. 只有在用反斜槓“\”進行轉義的情況下,字符(){}才會在BRE被當作元字符處理,而ERE 中,任何元符號前面加上反斜槓反而會使其被當作普通字符來處理。

怎麼玩區分通配符和正則表達式

  1. 不需要思考的判斷方法:在三劍客awk,sed,grep,egrep都是正則,其他都是通配符
  2. 區別通配符和正則表達式最簡單的方法:
  3. (1)文件目錄名===>通配符
  4. (2)文件內容(字符串,文本【文件】內容)===>正則表達式
  5. 通配符和正則表達式都有“*”,“?”,“[]”,但是通配符的這些符號都能自身代表任意 字符,而正則表達式的這些符號只能代表這些符號前面的字符

基本正則表達式

字符 描述
^ ^word搜索以word開頭的內容
$ word$搜索以word結尾的內容
^$ 表示空行,不是空格
. 代表且只能代表任意一個字符(不匹配空行)
\ 轉義字符,讓有特殊含義的字符脱掉馬甲,現出原形,如.只表示小數點
* 重複之前的字符或文本0個或多個,之前的文本或字符連續0次或多次
.* 任意多個字符
^.* 以任意多個字符串開頭,.*儘可能多,有多少算多少,貪婪性
括號表達式
abc[.,/] 匹配字符集合內的任意一個字符a或b或c:[a-z]匹配所有小寫字母;表示一個整 體,內藏無限可能;[abc]找a或b或c可以寫成[a-c]
1 匹配不包含^後的任意字符a或b或c,是對[abc]的取反,且與^含義不同
a{n,m} 重複前面a字符n到m次(如果用egrep或sed -r可去掉斜線)
a{n,} 重複前面a字符至少n次,如果用egrep或sed -r可去掉斜線
a{n} 重複前面a字符n次,如果用egrep或sed -r可去掉斜線

擴展正則表達式ERE

特殊字符 描述
+ 重複前一個字符一次或一次以上,前一個字符連續一個或多個,把連續的文本/ 字符取出
重複前面一個字符0次或1次(.是有且只有1個)
() 分組過濾被括起來的東西表示一個整體(一個字符),後向引用

正則小結

  • 基礎正則:BRE
^ $ . * .* [abc] 1
  • 擴展正則:ERE
+ ? () {} a{n,m} a{n,} a{n}
轉義字符\:將字符的意思改變(不支持正則符號的,轉變字符含義為正則,支持正則的轉變 為普通字符含義)
  • 基本正則和擴展正則區別
基礎正則BRE 擴展正則ERE
? ?
+ +
{} {}
( \ ) ()
  • 所謂基礎正則實際上就是得需要轉義字符配合表達的正則,而擴展正則就是讓命令擴展 它的權限讓他直接就認識正則表達符號(egrep,sed -r,awk直接支持)
  • 注意

    1. grep默認不支持正則,因此正則表達式的符號對於grep來説就等同於普通字符含 義,因此,想讓grep直接處理正則符號必須通過轉義字符{}來處理。
    2. grep -E 強制讓grep直接認識正則符號,不需要再進行轉義
    3. egrep 等效grep -E 天生就能認識正則符號
    4. 我們平時備份可以通過cp 文件名{,.bak}的形式進行,避免再打一次文件名 sed -r :讓sed支持正則

補充説明

正則表達式 描述 示例
[:alnum:] [a-zA-Z0-9]匹配任意一個字母或數字字符 [[:alnum:]]+
[:alpha:] 匹配任意一個字母字符(包括大小寫字母) [[:alpha:]]{4}
[:blank:] 空格與製表符(橫向縱向) [[:blank:]]*
[:digit:] 匹配任意一個數字字符 [[:digit:]]?
[:lower:] 匹配小寫字母 [[:lower:]]{5,}
[:upper:] 匹配大寫字母 ([[:upper:]]+)?
[:punct:] 匹配標點符號 [[:punct:]]
[:space:] 匹配一個包括換行符,回車等在內的所有空白符 [[:space:]]+
[:graph:] 匹配任何一個可以看得見的且可以打印的字符 [[:graph:]]
[:xdigit:] 任何一個十六進制數 [[:xdigit:]]+
[:cntrl:] 任何一個控制字符(ASCII字符集中的前32個字符) [[:cntrl:]]
[:print:] 任何一個可以打印的字符 [[:print:]]

### 元字符

正則表達式 描述 示例
\b 單詞邊界 \bcool\b匹配cool,不匹配coolant
\B 非單詞邊界 cool\B匹配coolant不匹配cool
\d 單個數字字符 b\db匹配b2b,不匹配bcb
\D 單個非數字字符 b\Db匹配bcb不匹配b2b
\w 單個單詞字符(字母,數字與_) \w匹配1或a,不匹配&
\W 單個非單詞字符 \W匹配&,不匹配1或a
\n 換行符 \n匹配一個新行
\s 單個空白字符 x\sx匹配xx,不匹配xx
\S 單個非空白字符 x\S\x匹配xkx,不匹配xx
\r 回車 \r匹配回車
\t 橫向製表符 \t匹配一個橫向製表符
\v 垂直製表符 \v匹配一個垂直製表符
\f 換頁符 \f匹配一個換頁符

寫在最後

學會正則表達式還是有必要的,配合grep,egrep,sed -r,awk更為強大,至少以後你的同事寫出來後,不會在腦子裏出現 "這是寫的啥玩意兒啊?怎麼我看不懂呢" 的想法或者同事不會正則表達式就可以牛逼的説,讓我來。

本篇轉載於:https://mp.weixin.qq.com/s/pG...


  1. abc ↩
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.