引子：关于正则表达式……

正则表达式这个名字看起来总有点古怪，概念似乎也不简单，甚至需要用一整本书来讲解；可是，它到底是什么呢？

身为技术人员，我相信你总会与字符串打交道，相应地，各种语言也都提供了与字符串有关的函数。不妨先看看下面几个问题，字符串函数是如何解决的（下面的代码使用Python语言，它很直观，正文里有基础的介绍。现在，你只需要知道def是定义函数的关键词即可）。

1. 判断字符ch是否数字字符

      def isDigit(ch) :
          return ch == "0" or ch == "1" …… or ch == "9"

2. 判断字符串str是否电话号码（为简单起见，现在只考虑固定电话号码，也就是长度在7～8位之间的数字字符串，且第一位不为0）

      def isPhoneNum (str) :
          if len(str) >= 7 and len(str) <= 8 and str[0] != "0" :
            for ch in str :
                if not isDigit(ch) :
                    return false
            return true
          return false

任务本身并没有增加太多，但是程序复杂了很多倍；如果你不这样看，那么，来个更复杂的。

3. 找出一段文本中所有的电话号码

最直观的办法是，在字符串中的每个位置截取7~8个字符，调用之前的isPhoneNum()。这么做看起来没问题，只是效率太低。

当然，很容易就可以做点改进，只在“当前字符为数字字符”的情况下调用isPhoneNum()。这样效率倒是改进了，但是还有问题没有解决：要求找到的是长度大于等于7个字符，小于等于8个字符的“数字字符串”，而不是“子字符串”——也就是说，假如数字字符串是64240000，需要将它找出来；如果数字字符串是13800138000，则需要忽略它，以及其中的任何子串（比如13800138，00138000）。

所以，用isPhoneNum()找出字符串之后，还需要保证它之前的字符不是数字字符，之后的字符也不是数字字符。看起来很简单，但为了避免越界错误，又需要判断：如果当前字符是整段文本的第一个字符，则不需要判断之前的字符，因为它不存在；同样，如果找出的字符串在整段文本的末尾，则不需要判断之后的字符，因为它同样不存在……

到现在为止，即便只是找到最简单的固定电话号码，程序也非常复杂，难以维护。如果要查找的是形式更多变的文本，比如带区号的电话号码（021-64240000 或者03718888888）、手机号码（13800138000或者+8613800138000或者013800138000），程序更是不可想象，更不用说文件路径名、URL地址、电子邮件地址了！然而，日常开发中我们又确实经常需要面对这类任务，有什么更好的办法呢？

正则表达式就是解决这类问题的万灵药。虽然许多人有点看不起它，觉得不入流，科班教材里也不会花太多篇幅来介绍它，但它确实是解决问题的利器——之前提到的三个例子，用正则表达式都可以轻松解决。

1. 判断字符ch是否数字字符

      def isDigit(ch) :
          return re.search(ch, "[0-9]") != None

看起来很复杂，其实并不复杂：这里真正要关心的就是正则表达式[0-9]，它表示“从0到9之间的任意字符”，很形象吧？re.search()是正则表达式运算函数，它判断ch能否由正则表达式[0-9]匹配，可以则返回一个结果，否则返回None（这些细节正文中会讲到）。

2. 判断字符串str是否电话号码

      def isPhoneNum(str) :
          return re.search(str, "[1-9][0-9]{6,7}") != None

这个正则表达式最开始是[1-9]，表示第一个字符必须是1~9 之间的数字字符；之后是[0-9]{6,7}，表示长度在6和7之间，由0~9之间的数字字符组成的字符串（两部分加起来，整个字符串的长度在7和8之间）。要解决的问题复杂了，正则表达式仍然直观形象。

3. 找出一段文本中所有的固定电话号码

      def findNumStr(str) :
          return re.findall(str, '(?<![0-9])[1-9][0-9]{6,7}(?![0-9])')

这个正则表达式之前多出了(?<![0-9])，表示“之前不能是[0-9]”；之后多出了(?![0-9])，表示“之后不能是[0-9]”。虽然稍微复杂点，但意思明确，而且不难理解。re.findall()的意思也很明显：找到所有这样的字符串。

可以想象，循着这种思路，更复杂的电话号码、手机号码等任务都不难解决。更重要的是，之前需要许多行语句才能完成的任务，现在基本上只需要一个正则表达式，一条语句就可以完成。正因为如此，不少人虽然认为正则表达式不够花哨、漂亮，却不得不承认它是一种 “匕首应用”——匕首，没有十八般兵刃那么大方，关键时候却不可或缺，所以值得花时间练练。同样，正则表达式虽然不能用来显摆，但总有派得上用场的地方，花时间练练绝不是坏事。即便你的工作不是纯粹的文本处理（比如日志分析），也总会有用到正则表达式的地方（比如查找和修改源代码），所以我希望，这本书能陪伴你练出一身正则表达式的好功夫，在关键场合能亮出趁手的工具。

最后，为了尊重传统教科书的习惯，附上正则表达式的“科班史”：

正则表达式发源于与计算机密切相关的两个领域：计算理论和形式语言。20世纪40年代，两位神经生理学家Warren McCulloch和Walter Pitts研究出一种数学方式来描述神经网络的办法，它们把神经系统中的神经元描述成小而简单的自动控制单元。1956年，数学家Stephen Cole Kleene在他们研究的基础上，发表了一篇名为“神经网事件的表示法”的论文，在其中，他采用了一些称之为“正则集合（regular set）”的数学符号来描述神经网络模型。

之后，UNIX的主要发明人Ken Thompson将这个符号系统引入了文本编辑器QED（意思是“在文本中搜索某种模式”），正则表达式由此也进入了计算机世界。随后Ken Thompson又将正则表达式引入了UNIX下的文本编辑器ed，ed最终演化为大家熟悉的grep（grep得名自ed编辑器中的正则表达式搜索命令g/re/p，其中的re表示“正则表达式”）。