注册通行证 用户名 密码
  • 文章投稿
  • 博客
  • 论坛
  • 设为首页
  • 加入收藏
jztop.com网络技术
  • 首页
  • | iT新闻
  • | 操作系统
  • | 组网建网
  • | 网络安全
  • | 程序开发
  • | 办公一族
  • | 工具软件
  • | 网页制作
  • | 多媒体制作
  • | 网吧技术
  • | 服务器
  • | 专题教程
Vista | 软件评测 | 系统备份 | 优化 | 进程 | 聊天 | 病毒 | Linux | 黑客 | 防火墙 | 数据库 | Web开发 | Java | Word | 游戏 | 32位开发 | 移动开发
当前位置:首页 > 程序开发 > 微软开发专栏 > ASP.NET 内容正文:.NET正则表达式使用高级技巧之工作特点

.NET正则表达式使用高级技巧之工作特点

发布时间:2006-03-28 17:03:51 来源:博客园 网友评论 0 条
  语法:??,*?,+?,{n}?,{n,m}?

  涵义:简单说,后面的这个?(lazy符)告诉正则引擎,它前面的表达式匹配到最短的匹配项就不用匹配下去了,如??,?本身匹配0-1个匹配项,那么??就取最短的,匹配0个项就不匹配下去了,同理,*?匹配0个,+?匹配1个,{n}?匹配n个,{n,m}?匹配n个。当用@”/w*?”匹配”abcd”时,会有五次成功匹配,每次都匹配的结果都是空字符串,为什么会是5次呢,这是因为正则引擎在匹配一个表达式时是一个字符一个字符对比下去的,每成功匹配一次,就前进一下。

  判断表达式

  语法:

  1、A|B,这个是最基本的,A或者B,其实这个不能算判断

  2、(?(expression)yes-expression|no-expression),其中no-expression为可选项,意为,如果expression成立,则要求匹配yes-expression,否则要求匹配no-expression

  3、(?(group-name)yes-expressioin|no-expression),其中no-expression为可选项,意为,如果名为group-name的组匹配成功,则要求匹配yes-expression,否则要求匹配no-expression

  判断表达式还是很好理解的,唯有一点要注意:@"(?(A)A|B)"不能匹配"AA",为什么呢?要怎么样写才能匹配呢,大家先想想……

  我们应该这样写Regex: @”(?(A)AA|B)”,请注意,判断式中的内容并不会做为yes-expression或no-expression表达式的一部分。

  .net 的正则引擎工作特点

  .net的正则引擎工作方式大多数和我们“想当然”的方式一样,只是有几点要注意:

  1、.NET Framework 正则表达式引擎尽可能的匹配多的字符(贪婪)。正是由于这一点,所以,不要用@"<.*>(.*)</.*>"这样的正则式来试图找出一个HTML文档中的所有innerText。(我也正是在网上看到有人这样写正则式才决定要写《正则表达式 高级技巧》的,呵呵)

  2、.NET Framework 正则表达式引擎是回溯的正则表达式匹配器,它并入了传统的非确定性有限自动机 (NFA) 引擎(例如 Perl、Python使用的引擎)。这使其有别于更快的、但功能更有限的纯正则表达式确定性有限自动机 (DFA) 引擎。.NET Framework 正则表达式引擎尽量匹配成功,所以,当@"/w+/.(.*)/./w+"中的.*把www. .csdn.net中的.csdn.net都匹配完了,让后面的/./w+没得字符去匹配时,引擎会进行回溯,以得到成功的匹配。
 
  NET Framework 正则表达式引擎还包括了一组完整的语法,让程序员能够操纵回溯引擎。包括:

  “惰性”限定符:??、*?、+?、{n,m}?。这些惰性限定符指示回溯引擎首先搜索最少数目的重复。与之相反,普通的“贪婪的”限定符首先尝试匹配最大数目的重复。

  从右到左匹配。这在从右到左而非从左到右搜索的情况下十分有用,或者在从模式的右侧部分开始搜索比从模式的左侧部分开始搜索更为有效的情况下十分有用。

  3、.NET Framework 正则表达式引擎在(expression1|expression2|expression3)这样情况下,expression1总是最先得到尝试,再依次是expression2和expression3

publicstaticvoidMain()
{
strings="THINisaasp.netdeveloper.";
Regexreg=newRegex(@"(/w{2}|/w{3}|/w{4})",RegexOptions.Compiled|RegexOptions.IgnoreCase);
MatchCollectionmc=reg.Matches(s);
foreach(Matchminmc)
Console.WriteLine(m.Value);
Console.ReadLine();
}

  输出结果是: ‘TH’ ‘IN’ ‘is’ ‘as’ ‘ne’ ‘de’ ‘ve’ ‘lo’ ‘pe’

  附表

转义符说明
一般字符除 .$ ^ { [ ( | ) * + ? / 外,其他字符与自身匹配。
/a 与响铃(警报)/u0007 匹配。
/b 在正则表达式中,/b 表示单词边界(在 /w 和 /W 之间),不过,在 [] 字符类中,/b 表示退格符。在替换模式中,/b 始终表示退格符。
/t 与 Tab 符 /u0009 匹配。
/r 与回车符 /u000D 匹配。
/v 与垂直 Tab 符 /u000B 匹配。
/f 与换页符 /u000C 匹配。
/n 与换行符 /u000A 匹配。
/e 与 Esc 符 /u001B 匹配。
/040 将 ASCII 字符匹配为八进制数(最多三位);如果没有前导零的数字只有一位数或者与捕获组号相对应,则该数字为后向引用。例如,字符/040 表示空格。
/x20 使用十六进制表示形式(恰好两位)与 ASCII 字符匹配。
/cC 与 ASCII 控制字符匹配;例如,/cC 为 Ctrl-C。
/u0020 使用十六进制表示形式(恰好四位)与 Unicode 字符匹配。
/ 在后面带有不识别为转义符的字符时,与该字符匹配。例如,/* 与 /x2A 相同。
字符类 说明
. 匹配除 /n 以外的任何字符。如果已用 Singleline 选项做过修改,则句点字符可与任何字符匹配。
[ aeiou ] 与指定字符集中包含的任何单个字符匹配。
[^ aeiou ] 与不在指定字符集中的任何单个字符匹配。
[0-9a-fA-F] 使用连字号 (–) 允许指定连续字符范围。
/p{ name }

与 {name} 指定的命名字符类中的任何字符都匹配。支持的名称为 Unicode 组和块范围。例如,Ll、Nd、Z、IsGreek、IsBoxDrawing。可以使用 GetUnicodeCategory 方法找到某个字符所属的 Unicode 类别。

/P{ name } 与在 {name} 中指定的组和块范围不包括的文本匹配。
/w 与任何单词字符匹配。等效于 Unicode 字符类别 [/p{Ll}/p{Lu}/p{Lt}/p{Lo}/p{Nd}/p{Pc}/p{Lm}]。如果用 ECMAScript 选项指定了符合 ECMAScript 的行为,则 /w 等效于 [a-zA-Z_0-9]。
/W 与任何非单词字符匹配。等效于 Unicode 字符类别 [^/p{Ll}/p{Lu}/p{Lt}/p{Lo}/p{Nd}/p{Pc}/p{Lm}]。如果用 ECMAScript 选项指定了符合 ECMAScript 的行为,则 /W 等效于 [^a-zA-Z_0-9]。
/s 与任何空白字符匹配。等效于 Unicode 字符类别 [/f/n/r/t/v/x85/p{Z}]。如果用 ECMAScript 选项指定了符合 ECMAScript 的行为,则 /s 等效于 [ /f/n/r/t/v]。
/S 与任何非空白字符匹配。等效于 Unicode 字符类别 [^/f/n/r/t/v/x85/p{Z}]。如果用 ECMAScript 选项指定了符合 ECMAScript 的行为,则 /S 等效于 [^ /f/n/r/t/v]。
/d 与任何十进制数字匹配。对于 Unicode 类别的 ECMAScript 行为,等效于 /p{Nd},对于非 Unicode 类别的 ECMAScript 行为,等效于 [0-9]。
/D 与任何非数字匹配。对于 Unicode 类别的 ECMAScript 行为,等效于 /P{Nd},对于非 Unicode 类别的 ECMAScript 行为,等效于 [^0-9]。
断言 说明
>^ 指定匹配必须出现在字符串的开头或行的开头。
$ 指定匹配必须出现在以下位置:字符串结尾、字符串结尾处的 /n 之前或行的结尾。
/A 指定匹配必须出现在字符串的开头(忽略 Multiline 选项)。
/Z 指定匹配必须出现在字符串的结尾或字符串结尾处的 /n 之前(忽略 Multiline 选项)。
/z 指定匹配必须出现在字符串的结尾(忽略 Multiline 选项)。
/G 指定匹配必须出现在上一个匹配结束的地方。与 Match.NextMatch() 一起使用时,此断言确保所有匹配都是连续的。
/b 指定匹配必须出现在 /w(字母数字)和 /W(非字母数字)字符之间的边界上。匹配必须出现在单词边界上,即出现在由任何非字母数字字符分隔的单词中第一个或最后一个字符上。
/B 指定匹配不得出现在 /b 边界上。
限定符 说明
* 指定零个或更多个匹配;例如 /w* 或 (abc)*。等效于 {0,}。
+ 指定一个或多个匹配;例如 /w+ 或 (abc)+。等效于 {1,}。
? 指定零个或一个匹配;例如 /w? 或 (abc)?。等效于 {0,1}。
{ n } 指定恰好 n 个匹配;例如 (pizza){2}。
{ n ,} 指定至少 n 个匹配;例如 (abc){2,}。
{ n , m } 指定至少 n 个但不多于 m 个匹配。
*? 指定尽可能少地使用重复的第一个匹配(等效于 lazy *)。
+? 指定尽可能少地使用重复但至少使用一次(等效于 lazy +)。
?? 指定使用零次重复(如有可能)或一次重复 (lazy ?)。
{ n }? 等效于 {n} (lazy {n})。
{ n ,}? 指定尽可能少地使用重复但至少使用 n 次 (lazy {n,})。
{ n , m }? 指定介于 n 次和 m 次之间、尽可能少地使用重复 (lazy {n,m})。


--完--
相关文章
  • 让JSP与ASP.Net共享Session值
  • PHP编程技巧:看实例学正则表达式
  • PHP一些常用的正则表达式
  • Java中正则表达式使用方法详解
  • .NET正则表达式使用高级技巧之反向引用
【评论】【收藏本文】【打印】【关闭】
上一篇文章:.NET正则表达式使用高级技巧之反向引用
下一篇文章:在ASP.NET中防止注入攻击
讨论区
查看
已有 0 位对此新闻感兴趣的网友发表了看法
匿名发表
注册通行证 登陆
图文阅读推荐
推荐阅讯
  • ASP.NET 2.0服务器控件之复合控件概述
  • ASP.NET 2.0站点登录、导航与权限管理
  • ASP.NET中编程杀死进程
  • 10天学会ASP.net之第七天
  • ASP.NET页面中标题单点解决方案
  • asp.net身份验证和授权
  • ASP.NET 2.0页面框架简要慨述
  • ASP.NET 2.0中轻松实现网站换肤
  • ASP.NET入门随想之代言人
  • 关于.NET动态代理的介绍和应用简介
阅读排行
  • 1.用ASP.NET 2.0设计网络在线投票系统
  • 2.在ASP.Net 2.0中实现多语言界面的方法
  • 3.轻松加密ASP.NET 2.0 Web程序配置信息
  • 4.在ASP.NET中使用AJAX的简单方法
  • 5..NET 2.0中的企业库异常处理块简述
  • 6.面向.NET开发人员的Ajax 技术平台策略
  • 7.揭开ASP.NET中Cookie编程的奥秘
  • 8.ASP.NET2.0服务器控件之创建自定义控件
  • 9.ASP.NET2.0中Gridview中数据操作技巧
  • 10.ASP.NET 2.0发送电子邮件全面剖析之二
专题教程
  • 大话G游 专题:手机病毒揭密
  • ARP攻击防范与解决方案 路由故障处理手册
  • Picasa中文版_Picasa教程 专题:清除流氓软件
  • Firefox专题 seo搜索引擎优化专区
  • 重装Windows必知的事情 装机之必备软件大行动
病毒专杀栏
  • 杀毒软件反被病毒杀 连"救命"都不能喊
  • 金山ARP防火墙
  • 还原卡神话破灭“机器狗”病毒来势汹汹
  • cctv经济半小时:你的手机现在安全吗?
  • 新挂马方式开始流行 ARP挂马称雄局域网
  • 木马和病毒清除的通用解法
  • IP地址不再冲突 查找ARP攻击者元凶
  • 教你几招识别和防御Web网页木马
  • 分析:封杀BT只是暂时的止痛药
  • QQ爆危险漏洞,“QQ游戏邀请大盗”邀请你玩病
关于我们 | 诚聘英才 | 联系我们 | 版权声明 | 网站大事 | 网站地图 | 意见建议
CopyRight 2005-2007 Jztop.Com 版权所有 未经许可 请勿转载