正则表达式——详细讲解平衡组

(编辑：jimmy 日期: 2026/6/15 浏览：3 次 )

这篇文章适合你吗？

要读懂这篇文章的精髓，你最好要有一点正则匹配原理的基础。比如".*"匹配文本内容"asp163"，稍懂正则表达式的人都知道可以匹配，但是你知道他的匹配过程吗？如果你不太清楚，那么下面的内容，对你来说可能不太适合，或许，看的太吃力且无法领悟平衡组的用法。因此，我建议你先了解正则表达式NFA引擎的匹配原理。想要整理一份易懂易描述的话，的确要费些时间，但不知道这篇内容会不会达到我预期的效果。慢慢完善吧~（注：这是我2010年写的，现在拿过来，有时间将自己做为读者来看本篇文章，修改有问题的地方，并增加些实例，尽量做到通俗易懂。）

一般正则教程中对平衡组的介绍

如果想要匹配可嵌套的层次性结构的话，就得使用平衡组了。举个例子吧，如何把“xx <aa <bbb> <bbb> aa> yy”这样的字符串里，最长的尖括号内的内容捕获出来？

这里需要用到以下的语法构造：
("group"，第二个就是从黑板上擦掉一个"group"，第三个就是看黑板上写的还有没有"group"，如果有就继续匹配yes部分，否则就匹配no部分。我们需要做的是每碰到了左括号，就在黑板上写一个"group"，每碰到一个右括号，就擦掉一个，到了最后就看看黑板上还有没有－如果有那就证明左括号比右括号多，那匹配就应该失败（为了能看得更清楚一点，我用了("htmlcode">


<         #最外层的左括号
 [^<>]*     #最外层的左括号后面的不是括号的内容
 (
  (
   ("Open"
   [^<]*   #匹配左括号后面的不是括号的内容
  )+
  (
   ("Open"
   [^<>]*   #匹配右括号后面不是括号的内容
  )+
 )*
 ("Open"；如果有，则匹配失败
>         #最外层的右括号



我为什么写这篇文章
看了上面的介绍，你明白了吗？在我未理解正则表达式匹配原理之前，看上面对于平衡组的介绍，似懂非懂，且只能当做模板记住，而不能灵活运用。因此查阅大量有关正则方面的资料，这里尤其感谢lxcnn的技术文档及《精通正则表达式》这本书，让我对正则表达式有了更深入、更系统的理解，因此，在它们的基础之上，我就结合自己的学习经历做个小结，一来做为学习笔记存档，另外，如果能解决你的疑惑，也是件让人高兴的事。

我先暂不分析上面的代码，先讲解一下关于平衡组相关的概念及知识。

下面表达式匹配测试工具为：Expresso，本站也提供它的完美破解版下载。
平衡组的概念及作用
平衡组，故名思义，平衡即对称，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。平衡组有狭义与广义两种定义，狭义平衡组指("htmlcode">

 \(        #普通字符“(”
  (       #分组构造，用来限定量词“*”修饰范围
   ("htmlcode">

<table>
<tr>
<td id="td1"> </td>
<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</table>
</td>
<td></td>
</tr> </table>


以上为部分的HTML代码.现在我们的问题是要提取出其<td id="td2">的<td>标签并将其删除掉，以往我们惯用的方法都是直接去取,像<td\s*id="td2">[\s\S]+"htmlcode">

<td id="td2">
<table>
<tr>
<td>snhame</td>


原因也很简单,它和离他最近的</td>标签匹配上了,不过它不知道这个标签不是它的-_-，是不是就是"htmlcode">

<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</td>
<td></td>


这个结果也不是我们想要的。那么我就用“平衡组”来解决吧。
<td\s*id="td2"[^>]*>(("htmlcode">

<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</table>
</td>
<td></td>


这正是我们想要的

注意，我开始写成这样的方式


<td\s*id="td2"[^>]*>(("htmlcode">

<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</table>
</td>
<td></td>


一个问题

以下代码只是做为一个问题探讨

文本内容：e+f(-(g/(h-i))*j
正则表达式：


\(
 (
  (?<mm>\()
  |
  (?<-mm>\))
  |
  .
 )*?
 (?(mm)(?!))
\)


匹配的结果是：(-(g/(h-i))



            

           
            上一篇：除捕获组的语法外，其它的(?...)语法都不是捕获组的验证

            下一篇：正则表达式的多行模式与单行模式图文分析


    
    
    
        友情链接:杰晶网络 DDR爱好者之家 南强小屋 黑松山资源网 白云城资源网 SiteMap
    
    
        
            
                首页
                破解
                音乐
                影视