性能

模式中一些項(xiàng)可能比其他一些更加高效。比如使用 [aeiou] 這樣的字符類會(huì)比可選路徑 (a|e|i|o|u) 高效。一般而言，用盡可能簡(jiǎn)單的構(gòu)造描述需求是最高效的。 Jeffrey Friedl 書(shū)(精通正則表達(dá)式)中包含了很多關(guān)于正則表達(dá)式性能的討論。

當(dāng)一個(gè)模式以 .* 開(kāi)始并且設(shè)置了 PCRE_DOTALL 選項(xiàng)時(shí)，模式通過(guò)PCRE隱式錨定，因?yàn)樗梢云ヅ渥址拈_(kāi)始。然而，如果 PCRE_DOTALL 沒(méi)有設(shè)置，PCRE 不能做這個(gè)優(yōu)化，因?yàn)?元字符不能匹配換行符，如果目標(biāo)字符串包含換行符，模式可能會(huì)從一個(gè)換行符后面開(kāi)始匹配，而不是最開(kāi)始位置。比如，模式 (.*) second 匹配目標(biāo)字符串 ”first\nand second”(\n 是一個(gè)換行符)第一個(gè)捕獲子組結(jié)果是 ”and”。為了這樣做， PCRE 嘗試從目標(biāo)字符串中每個(gè)換行符后開(kāi)始匹配。

如果你使用模式匹配沒(méi)有換行符的目標(biāo)字符串，可以通過(guò)設(shè)置 PCRE_DOTALL 或以 ^.* 開(kāi)始的模式明確指示錨定以獲取最佳性能。這樣節(jié)省了 PCRE 沿目標(biāo)字符串掃描查找換行符重新開(kāi)始的時(shí)間。

小心模式中的無(wú)限重復(fù)嵌套。這在應(yīng)用到不匹配字符串時(shí)可能會(huì)導(dǎo)致運(yùn)行時(shí)間很長(zhǎng)。考慮模式片段 (a+)*

這個(gè)模式可以有 33 種方式匹配 ”aaaa”，并且這個(gè)數(shù)字會(huì)隨著字符串的長(zhǎng)度的增加迅速增加. (*重復(fù)可以匹配0,1,2,3,4次, 并且除了0外每種情況+都有不同次數(shù)的匹配對(duì)應(yīng))。當(dāng)模式的剩余部分導(dǎo)致整個(gè)匹配失敗的時(shí)候， PCRE原則上回嘗試每種可能的變化，這將會(huì)非常耗時(shí)。

對(duì)于一些簡(jiǎn)單的情況的優(yōu)化是像 (a+)*b 這樣緊接著使用原文字符串.。在著手正式匹配工作之前，PCRE 檢查目標(biāo)字符串后面是否有 ”b” 字符，如果沒(méi)有就立即失敗。然而當(dāng)緊接著沒(méi)有原文字符的時(shí)候這個(gè)優(yōu)化是不可用的。你可以比較觀察 (a+)*\d 和上面模式的行為差異。前者在應(yīng)用到整行的 ”a” 組成的字符串時(shí)幾乎是立即報(bào)告失敗，而后者在目標(biāo)字符串長(zhǎng)于 20 個(gè)字符時(shí)，時(shí)間消耗就相當(dāng)可觀。