综合

img etmonitor

Regular Expressions (3) ---- Using Regex in .NET

发表于2004/9/16 15:13:00  1706人阅读

分类: 正则表达式

Regular Expressions (3) ---- Using Regex in .NET

看这篇文章之前,假定你已经了解了有关正则表达式的一些知识,并且知道如何去应用它。本篇文章只介绍如何在.NET中使用正则表达式。

 最后是一个应用正则表达式的给VB程序语法加亮的小程序。

 

 

名称空间和相关的类

.NET中所有和正则表达式相关的类都定义在System.Text.RegularExpressions名称空间下。

分别是:

Class

Description

Regex

不可变的(只读)的正则表达式的实例,包括一些静态方法

Capture

包含单个子表达式匹配的结果,不能实例化,必须通过GroupMatch来访问。

CaptureCollection

Capture的序列

Group

一组表达式匹配的结果,由Capture继承而来

GroupCollection

Group的序列

Match

一个正则表达式的匹配结果,由Group继承而来

MatchCollection

Match的序列

 下面用图和例子说明各个类之间的关系:

例:

如上图:

匹配的字符串是:xgraygreyxgreyxgray

正则表达式是:(gr[ae])y

表示匹配”gray”或者”grey”一次或n次。

 从生成的匹配树可以看到:

总共找到了三个匹配。每个匹配的值分别为:graygraygraygrey

以第一个匹配为例:

匹配一中共包括两个组:每个组的值分别为:graygreygrey

第一个组只有一个捕获结果,就是graygrey

第二组有两个捕获结果,分别为graygrey

下面说明这些类的详细作用:

Match

Match表示的是一个正则表达式的匹配操作。

如上例:

(Gr[ae]y)+得到三个Match结果。分别是graygreygraygrey

这等于是正则表达式解释器把(gr[ae]y)+吃拆成了(gr[ae]y)+(gray)+(grey)+三个单独的子表达式。

每个子表达式对应一个Match结果。

Regex

Result

(gr[ae]y)+

Graygrey

(gray)+

Gray

(grey)+

Grey

MatchCollection

MatchCollection表示的就是所有的字表达式的Match结果的集合。

可以通过遍历Matchs的集合来访问各个子表达式的Match结果。

For each m as Match in Regex.Matches(graygrey”, (gr[ae]y)+”)

            ‘ Use match result here.

Next

Group

每个子表达式默认就是一个组。所以子表达式的所有组的结果都保存在第一个组中,这也是为什么每个Match的结果和第一个Group的结果是一样的,因为它们就是一个。

.NET中,用括号括起来的子表达式表示这是一个组。

可以通过(?<groupName><子表达式>)来显示的给组命名。

比如:

Regex r = new Regex(“(?abc)+”)。就定义了一个组,名字为g1

在程序中,我们可以通过组命来访问组的匹配结果。

Dim m As Match = r.Match("xxabcabc")

Dim g1 As Group = m.Groups(“g1”)

GroupCollection

GroupCollection表示一个MatchGroup的集合。

可以通过组命或者索引来访问一个组。

 Catpure

Capture中保存的是每一个子表达式的最小匹配结果,它相当于是原子匹配,比如a匹配a,则结果a就保存在capture中,group的结果只是所的capture结果的组合。

所以如果一个匹配只有一个group,这个group中又只有一个capture,则这个capture的结果就是整个Match的结果。

CaptureCollection

Capture的序列。

VBHightDemo

下面介绍一下这个应用正则表达式给VB语法加亮的程序。

这个程序的原理就是根据正则表达式分析每一行字符串,根据匹配结果,把相应的字符的颜色改变。

关键的地方就是拿到组建的正则表达式。

Private VBImports As Regex = New Regex("(?RegexOptions.Compiled)

    Private QuotedString As Regex = New Regex("""" & "[^""]*" & """", RegexOptions.Compiled)

    Private VBComment As Regex = New Regex("'.*")

    Private EmptyLine As Regex = New Regex("^//s*//Z", RegexOptions.Compiled)

    Private VBRegion As Regex = New Regex("(#region|#end region){1}", RegexOptions.Compiled)

     '-- use lookbehind, keywords can not follow by a '.' or a characotr

    Dim aa As String = "(?<![/./w])(as|boolean|break|byte|byval|byref|" _

                                & "case|catch|char|checked|class|const|continue|" _

                                & "decimal|dim|default|delegate|double|else|" _

                                & "enum|end|event|exit|explicit|extern|false|each|" _

                                & "float|friend|for|goto|if|implicit|inherits|" _

                                & "integer|interface|internal|is|lock|long|" _

                                & "namespace|new|next|overrides|overloads|object|operator|out|" _

                                & "override|params|private|protected|" _

                                & "public|readonly|ref|return|sbyte|sealed|" _

                                & "short|static|string|sub|" _

                                & "structure|switch|me|mybase|throw|true|try|typeof|" _

                                & "uint|ulong|unchecked|ushort|using|" _

                                & "while|withevents){1}[^/w]"

    Private VBKeyWords As Regex = New Regex(aa, RegexOptions.Compiled)

    Private SystemKeyWords As Regex = New Regex("(application|console|environment|gc|threadpool|math){1}", RegexOptions.Compiled)

Private Brackets As Regex = New Regex("(/{|/[|/(|/}|/]|/))", RegexOptions.Compiled)

在匹配的时候,可以给指定匹配的选项,比如忽略大小写,单行还是多行等等。

然后遍历并加亮匹配的结果就可以了。

For Each m As Match In regex.Matches(s)

       Me.ColorString(start + m.Groups(0).Index, m.Groups(0).Length, color)

Next

因为组中保存的就是所有capture的组合的结果,所以只加亮groups(0)中的字符串就够了,不需要再重复处理groupcaptures的值。

 

不正之处还请多多指正。

:)

 

If the source code needed, plase mail to me: etmonitor@msn.com.

阅读全文
0 0

相关文章推荐

img
取 消
img