Python Regular Expression -正規化表達

面對一堆數據,要從哪裡下手,如何下手,怎想下手都是問題,想要解決數據的問題,應該沒有什麼捷徑,最好的方法是學會正規化表達(简体中文称为:正则化,英文稱為Regular Expression, 簡寫 Regex)。正規化表達是程式利用一些特定的符號幫我們從繁雜的數據中取出我們想有的部份,這些特定的符號有:


符號意義
.代表任何字元
^ 字串的起始。若在 [ ] 內則代表『非』
$ 字串的結束
*代表出現0次以上
+代表出現1次以上
?出現 0 次或 1次
{n}出現 n 次
{n,m} 出現 n 次到 m 次
{n,}出現 n 次以上
\d數字
\D非數字
\w Unicode 定義的字、數字與底線 ˍ,若系統設定是 ASCII 則為26個大小寫英文字母、數字與底線 ˍ
\W非 \w 表達的字元
\s任何空白字元,包括空格、tab、換行等
\S非空白字元
| and , | 的前後兩者都要存在
[ ]一個集合

還有更多的特定符號,可參考 Python 官方網頁

範例待續…

發表迴響