JavaScript中常用的正则表达式日常整理(全)
//校验是否全由数字组成
function isDigit(s) { var patrn=/^[0-9]{1,20}$/; if (!patrn.exec(s)) return false return true }
匹配中文字符的正则表达式: [u4e00-u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了
匹配双字节字符(包括汉字在内):[^x00-xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
匹配空白行的正则表达式:ns*r
评注:可以用来删除空白行
匹配HTML标记的正则表达式:< (S*"http://([w-]+.)+[w-]+(/[w">http://([w-]+.)+[w-]+(/[w- ./"htmlcode">
String.prototype.len=function(){return this.replace([^x00-xff]/g,”aa”).length;}
(2)应用:javascript中没有像vbscript那样的trim函数,我们就可以利用这个表达式来实现
String.prototype.trim = function() { return this.replace(/(^s*)|(s*$)/g, “”); }
(3)应用:利用正则表达式分解和转换IP地址
function IP2V(ip) //IP地址转换成对应数值 { re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正则表达式 if(re.test(ip)) { return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1 } else { throw new Error(”Not a valid IP address!”) } }
(4)应用:从URL地址中提取文件名的javascript程序
s=”http://www.9499.net/page1.htm”; s=s.replace(/(.*/){0,}([^.]+).*/ig,”$2″) ; //Page1.htm
(5)应用:利用正则表达式限制网页表单里的文本框输入内容
用正则表达式限制只能输入中文:onkeyup=”value=”/blog/value.replace(/["^u4E00-u9FA5]/g,”) ”
onbeforepaste=”clipboardData.setData('text',clipboardData.getData('text').replace(/[^u4E00-u9FA5]/g,”))”
用正则表达式限制只能输入全角字符: onkeyup=”value=”/blog/value.replace(/["^uFF00-uFFFF]/g,”) ”
onbeforepaste=”clipboardData.setData('text',clipboardData.getData('text').replace(/[^uFF00-uFFFF]/g,”))”
用正则表达式限制只能输入数字:onkeyup=”value=”/blog/value.replace(/["^d]/g,”) “onbeforepaste= “clipboardData.setData
('text',clipboardData.getData('text').replace(/[^d]/g,”))”
用正则表达式限制只能输入数字和英文:onkeyup=”value=”/blog/value.replace(/[W]/g,””) “onbeforepaste=”clipboardData.setData
('text',clipboardData.getData('text').replace(/[^d]/g,”
中正则表达式,js去掉html标记,去掉字符,截取字符(2009-01-11 10:20:14)
2007-07-08 15:26
1,得到网页上的链接地址:
string matchString = @"<a[^>]+href=\s*(""(""]+)""|(";
2,得到网页的标题:
string matchString = @"<title>(";
3,去掉网页中的所有的html标记:
string temp = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档
java 中去掉网页中的所有标签
str = str.replaceAll("<[^>]*>", "");
4, string matchString = @"<title>([\S\s\t]*";
5,js去掉所有html标记的函数:
function delHtmlTag(str) { return str.replace(/<\/"");//去掉所有的html标记 }
这个可能IE5会错,那用这个,梅花的:
function delHtmlTag(str) { return str.replace(/<[^>]+>/g,"");//去掉所有的html标记 }
校验登录名:只能输入5-20个以字母开头、可带数字、“_”、“.”的字串
function isRegisterUserName(s) { var patrn=/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/; if (!patrn.exec(s)) return false return true }
来源:正则匹配空格的问题
字符串内字符键有空格,但是空格的数量可能不一致,通过正则将空格的个数统一变为一个。
例如:蓝 色 理 想
变成:蓝 色 理 想
aobert的正则:
<script type="text/javascript"> var str="蓝 色 理 想" var reg=/\s+/g str = str.replace(reg," ") document.write(str) </script>
判断字符串是不是由数字组成
来源:有没有简单的方法判断字符串由数字组成?
这个正则比较简单,写了一个测试
<script type="text/javascript"> function isDigit(str){ var reg = /^\d*$/; return reg.test(str); } var str = "7654321"; document.write(isDigit(str)); var str = "test"; document.write(isDigit(str)); </script>
电话号码正则
来源:想问一下关于电话号码的正则判断
:求一个验证电话号码的JS正则
/^\d{3,4}-\d{7,8}(-\d{3,4})"htmlcode">
function testReg(reg,str){ return reg.test(str); } var reg = /^0*(13|15)\d{9}$/; var str = '13889294444'; var str2 = '12889293333'; var str3 = '23445567'; document.write(testReg(reg,str)+'<br />'); document.write(testReg(reg,str2)+'<br />'); document.write(testReg(reg,str3)+'<br />');
使用正则表达式实现删除字符串中的空格:
来源:请问js中有没有去掉空格的函数
代码以及测试代码如下:
<script type="text/javascript"> //删除字符串两侧的空白字符。 function trim(str){ return str.replace(/^\s+|\s+$/g,''); } //删除字符串左侧的空白字符。 function ltrim(str){ return str.replace(/^\s+/g,''); } //删除字符串右侧的空白字符。 function rtrim(str){ return str.replace(/\s+$/g,''); } //以下为测试代码 var trimTest = " 123456789 "; //前后各有一个空格。 document.write('length:'+trimTest.length+'<br />'); //使用前 document.write('ltrim length:'+ltrim(trimTest).length+'<br />'); //使用ltrim后 document.write('rtrim length:'+rtrim(trimTest).length+'<br />'); //使用rtrim后 document.write('trim length:'+trim(trimTest).length+'<br />'); //使用trim后 </script>
测试的结果如下:
length:11
ltrim length:10
rtrim length:10
trim length:9 限制文本框只能输入数字和小数点等等
来源:文本框输入限制的问题????
只能输入数字和小数点
var reg = /^\d*\."htmlcode">
<script type="text/javascript"> var str = "infomarket.php"; var reg = /^\w*/ig; //匹配字符串开头的任意个单词字符 str = str.replace(reg,'test'); document.write(str); </script>
原帖的有点复杂,没太看明白。
只匹配中文的正则表达式
来源:关于上传的时候,只能选择中文名称的图片(是否可以用toASCII方法呢?)
前两天看的《JavaScript开发王》里恰好有中文的unicode范围,正则如下:
/[\u4E00-\u9FA5\uf900-\ufa2d]/ 写了一个简单的测试,会把所有的中文替换成“哦”。
<script type="text/javascript"> var str = "有中文"; var reg = /[\u4E00-\u9FA5\uf900-\ufa2d]/ig; str = str.replace(reg,'哦'); document.write(str); </script>
返回字符串的中文字符个数
来源:有没返回中文字符字节的函数!
一般的字符长度对中文和英文都是不分别的 如JS里的length,那么如何返回字符串中中文字符的个数呢?guoshuang老师在原帖中给出了解决方案,我又没看懂……
不过我自己也想到了一个办法:先去掉非中文字符,再返回length属性。函数以及测试代码如下:
<script type="text/javascript"> function cLength(str){ var reg = /[^\u4E00-\u9FA5\uf900-\ufa2d]/g; //匹配非中文的正则表达式 var temp = str.replace(reg,''); return temp.length; } var str = "中文123"; document.write(str.length+'<br />'); document.write(cLength(str)); </script>
结果:
5
2
中文两个,数字三个,正确。
下面的测试也正确。
var str = "中文123tets@#!#%$#[][{}"; document.write(str.length+'<br />'); document.write(cLength(str));
正则表达式取得匹配IP地址前三段
来源:如何用正则取IP前3段
192.168.118.101,192.168.118.72, 192.168.118.1都替换成:192.168.118
只要匹配掉最后一段并且替换为空字符串就行了,正则如下:
/\.\d{1,3}$/ 匹配结尾的.n,.nn或者.nnn。
测试代码如下:
function replaceReg(reg,str){ return str.replace(reg,'') } var reg = /\.\d{1,3}$/; var str = '192.168.118.101'; var str2 = '192.168.118.72'; var str3 = '192.168.118.1'; document.write(replaceReg(reg,str)+'<br />'); document.write(replaceReg(reg,str2)+'<br />'); document.write(replaceReg(reg,str3)+'<br />');
相似的有,这个帖子里有一个验证IP地址的方法:求检验MAC地址的正则表达例子
匹配<ul>与<ul>之间的内容
来源:请教个正则的小问题吧
<ul>safsf<ul>safsf</ul><ul>safsf</ul></ul>
用正则可以得到 <ul>起到下个<ul> 之间的内容。
正则如下:
/<ul>[\s\S]+"htmlcode">
<script type="text/javascript"> function getFileName(str){ var reg = /[^\\\/]*[\\\/]+/g; //xxx\或者是xxx/ str = str.replace(reg,''); return str; } var str = "c:\\images\\tupian\\006.jpg"; document.write(getFileName(str)+'<br />'); var str2 = "c:/images/tupian/test2.jpg"; document.write(getFileName(str2)); </script>
注意,\需要转义。
绝对路径变相对路径
来源:讨论一个正则
将<IMG height="120" width="800" src="/UploadFiles/2021-04-02/somepic.gif">
其中网址可能改变,例如http://localhost等等。
cloudchen的正则:
/http:\/\/[^\/]+/ 首先是http://,然后[^\/]+找过1个或者多个非/字符,因为遇到第一个/表示已经到目录了,停止匹配。
测试代码如下:
<script type="text/javascript"> var str = '<IMG height="120" width="800" \src="/UploadFiles/2021-04-02/somepic.gif">用户名正则
来源:求正则,急急呀!!
用于用户名注册,,用户名只 能用 中文、英文、数字、下划线、4-16个字符。
hansir和解决方案弄成正则:
/^[\u4E00-\u9FA5\uf900-\ufa2d\w]{4,16}$/ 中文字符或者单词字符,4到16个。实现4到16结成到正则里的关键就是开始^和结束$,这就等于整个字符串只能有这些匹配的内容,不能有多余的。
函数和测试代码如下:
<script type="text/javascript"> function isEmail(str){ var reg = /^[\u4E00-\u9FA5\uf900-\ufa2d\w]{4,16}$/; return reg.test(str); } var str = '超级无敌用户名regExp'; var str2 = '捣乱的@'; var str3 = '太短' var str4 = '太长longlonglonglonglonglonglonglong' document.write(isEmail(str)+'<br />'); document.write(isEmail(str2)+'<br />'); document.write(isEmail(str3)+'<br />'); document.write(isEmail(str4)+'<br />'); </script>匹配英文地址
来源:-求助- 正则问题
规则如下:
包含 "点", "字母","空格","逗号","数字",但开头和结尾不能是除字母外任何字符。
[\.a-zA-Z\s,0-9]这个字符集就实现了字母,空格,逗号和数字。最终正则如下:
/^[a-zA-Z][\.a-zA-Z\s,0-9]*"htmlcode">
<script type="text/javascript"> function testReg(reg,str){ return reg.test(str); } var reg = /^[a-zA-Z][\.a-zA-Z\s,0-9]*"htmlcode"><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>无标题文档</title> <script type="text/javascript"> function checkPrice(me){ if(!(/^("text" onkeyup="checkPrice(this);"/> </body> </html>身份证号码的匹配
来源:关于正则的,大家帮帮忙,急,在线等
身份证号码可以是15位或者是18位,其中最后一位可以是X。其它全是数字,正则如下:
/^(\d{14}|\d{17})(\d|[xX])$/ 开头是14位或者17位数字,结尾可以是数字或者是x或者是X。
测试代码如下:
<script type="text/javascript"> function testReg(reg,str){ return reg.test(str); } var reg = /^(\d{14}|\d{17})(\d|[xX])$/; var str = '123456789012345';//15位 var str2 = '123456789012345678';//18位 var str3 = '12345678901234567X';//最后一位是X var str4 = '1234';//位数不对 document.write(testReg(reg,str)+'<br />'); document.write(testReg(reg,str2)+'<br />'); document.write(testReg(reg,str3)+'<br />'); document.write(testReg(reg,str4)+'<br />'); </script>要求文本有指定行数
来源:[求助]求一句正则表达式的写法
匹配至少两行的字符串,每行都为非空字符。
只要匹配到[\n\r]就表示有换行了,再保证换行的两段都不是空字符就可以了。正则如下:
/\S+"htmlcode">
<script type="text/javascript"> function replaceReg(reg,str){ str = str.toLowerCase(); return str.replace(reg,function(m){return m.toUpperCase()}) } var reg = /\b(\w)|\s(\w)/g; var str = 'blue idea'; var str2 = 'BLUE IDEA'; var str3 = 'Test \n str is no good!'; var str4 = 'final test'; document.write(replaceReg(reg,str)+'<br />'); document.write(replaceReg(reg,str2)+'<br />'); document.write(replaceReg(reg,str3)+'<br />'); document.write(replaceReg(reg,str4)+'<br />'); </script>正则验证日期格式
来源:yyyy-mm-dd的正则怎样写啊?
yyyy-mm-dd格式
正则如下:
/^\d{4}-\d{1,2}-\d{1,2}$/ 4位数字,横线,1或者2位数字,再横线,最后又是1或者2位数字。
测试代码如下:
<script type="text/javascript"> function testReg(reg,str){ return reg.test(str); } var reg = /^\d{4}-\d{1,2}-\d{1,2}$/; var str = '2008-8-8'; var str2 = '2008-08-08'; var str3 = '08-08-2008'; var str4 = '2008 08 08'; document.write(testReg(reg,str)+'<br />'); document.write(testReg(reg,str2)+'<br />'); document.write(testReg(reg,str3)+'<br />'); document.write(testReg(reg,str4)+'<br />'); </script>第二种格式:来源:求一正则表达式
yyyy-mm-dd
或
yyyy/mm/dd
用“或”简单地修改一下就行了。
/^\d{4}(-|\/)\d{1,2}(-|\/)\d{1,2}$/ 去掉文件的后缀名
来源:求一个正则
www.abc.com/dc/fda.asp变为www.abc.com/dc/fda
如果文件后缀已知的话这个问题就非常简单了,正则如下:
/\.asp$/ 匹配最后的.asp而已,测试代码如下:
<script type="text/javascript"> function delAspExtension(str){ var reg = /\.asp$/; return str.replace(reg,''); } var str = 'www.abc.com/dc/fda.asp'; document.write(delAspExtension(str)+'<br />'); </script>如果文件名未知的话就用这个正则:/\.\w+$/,测试代码如下:
<script type="text/javascript"> function delExtension(str){ var reg = /\.\w+$/; return str.replace(reg,''); } var str = 'example.com/dc/fda.asp'; document.write(delExtension(str)+'<br />'); var str2 = 'test/regular/fda.do'; document.write(delExtension(str2)+'<br />'); var str3 = 'example.com/dc/fda.strange_extension'; document.write(delExtension(str3)+'<br />'); </script>验证邮箱的正则表达式
来源:找javascript写的表单检查代码!
fuchangxi的正则:
/^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+/ 开始必须是一个或者多个单词字符或者是-,加上@,然后又是一个或者多个单词字符或者是-。然后是点“.”和单词字符和-的组合,可以有一个或者多个组合。
<script type="text/javascript"> function isEmail(str){ var reg = /^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+/; return reg.test(str); } var str = 'test@hotmail.com'; document.write(isEmail(str)+'<br />'); var str2 = 'test@sima.vip.com'; document.write(isEmail(str2)+'<br />'); var str3 = 'te-st@qq.com.cn'; document.write(isEmail(str3)+'<br />'); var str4 = 'te_st@sima.vip.com'; document.write(isEmail(str4)+'<br />'); var str5 = 'te.._st@sima.vip.com'; document.write(isEmail(str5)+'<br />'); </script>我不太了解邮箱的具体规则。感觉这个正则比较简单,EMAIL校验 正则 讨论 求解里有比较详细的邮箱正则讨论。
匹配源代码中的链接
来源:正则
能够匹配HTML代码中链接的正则。
原帖正则:
/<a href=".+">.+"".+">有,而且href属性可以是一个或者多个除换行外任意字符(非贪婪)。后面是.+"asdfs" >……多了个空格。
<a id="xx" href=""asdfs">……前面有属性。
……
重写正则:
/<a\s(\s*\w*".+")*(\s*href=".+")(\s*\w*".+")*\s*>[\s\S]*".+")*
可以匹配一个属性,属性前面可能有或者没有多余的空格,用\s*匹配;属性名肯定是单词字符,用\w*".+"就是匹配属性值了非换行字符若干个;整个括号外面加个*表示可能有任意多个属性。
(\s*href=".+")
匹配href,它也是一个属性,所以只要把上面子正则表达式中的\w修改为href=就行了。
(\s*\w*".+")*重复第一个子正则表达式,再次接受任意个属性。
\s*>,属性最后再加上若干个空格和>。
[\s\S]*"htmlcode">
<script type="text/javascript"> function findLinks(str){ var reg = /<a\s(\s*\w*".+")*(\s*href\s*=\s*".+")(\s*\w*".+") *\s*>[\s\S]*"test" href="http://bbs.blueidea.com" title="无敌">经典论坛 </a></p><a"http://www.blueidea.com/""#>这里要保存</a>,只保存链接的文本内容,标签信息删掉。前面写过一个匹配链接的正则:
/<a\s(\s*\w*".+")*(\s*href=".+")(\s*\w*".+")*\s*>[\s\S]*"htmlcode">
/<a\s(".+")*(".+")(".+")*\s*>([\s\S]*"htmlcode"><script type="text/javascript"> function anchorText(str){ var reg =/<a\s(".+")*(".+")(".+")*\s*> ([\s\S]*"test" href="http://bbs.blueidea.com" title="无敌">经典论坛</a>'; document.write(anchorText(str)); </script>正则判断标签是否闭合
来源:求助 超难!正则表达式如何判断一个标签是否闭合
例如:<img xxx=”xxx” 就是没有闭合的标签;
<p>p的内容,同样也是没闭合的标签。
从简单的正则开始,先匹配起始标签
/<[a-z]+/i 再加上若干属性:
/<[a-z]+(\s*\w*".+")*/i 下面就到关键点了,标签的闭合。标签可能有两种方式闭合,<img xxx=”xxx” />
或者是<p>xxx </p>。
(\s*\/>)
匹配img类的结束,即/>。
(\s*".+")*(\s*".+")*(\s*"htmlcode">
<channel> <title>蓝色理想</title> </channel> <item> <title>界面设计测试规范</title> </item> <item> <title>《古典写实美女》漫画教程</title> </item> <item> <title>安远――消失的光年</title> </item> <item> <title>asp.net 2.0多语言网站解决方案</title> </item>要求匹配item里的title而不匹配channel里的title。
基本正则:
/<title>[\s\S]*"htmlcode">
<script type="text/javascript"> function istrue(str){ var reg=/^([a-z]+("htmlcode">/^(([a-z]+[0-9]+)|([0-9]+[a-z]+))[a-z0-9]*$/i意思和上面差不多,但是没有使用正向预查,测试代码如下:
<script type="text/javascript"> function istrue(str){ var reg=/^(([a-z]+[0-9]+)|([0-9]+[a-z]+))[a-z0-9]*$/i; return reg.test(str); } var str"htmlcode"><script type="text/javascript"> function istrue(str){ var reg=/^(([a-z]+\s+)|(\s+[a-z]+))[a-z\s]*$/i; return reg.test(str); } var str"htmlcode">function f(phoneNumber) { var pattern = /^(135)(\d{8})$/; if(pattern.test(phoneNumber)) return phoneNumber.replace(pattern,"$2"); else return "不是135打头的手机号码!"; }
/^(135)(\d{8})$/ 正则中,135作为开头表示第一个子正则表达式,第二个括号内的子正则表达式则匹配后面的8个数字,然后在replace中使用$2就可以引用这个子正则表达式匹配的内容了。测试代码如下:
<script type="text/javascript"> function f(phoneNumber) { var pattern = /^(135)(\d{8})$/; if(pattern.test(phoneNumber)) return phoneNumber.replace(pattern,"$2"); else return "不是135打头的手机号码!"; } var arr = new Array( "13588888333", "13658447322", "13558885354", "13587774654", "13854554786" ); for(var i = 0; i < arr.length; i++) document.write(f(arr[i])+'<br />'); </script>正则表达式替换变量
来源:求教正则
有一个数组:
var _A = ['A','B','C','D'];
有一个有“变量”的字符串。
var _B = '<ul><li>$0$</li><li>$1$</li><li>$2$</li><li>$3$</li></ul>';
说是变量,其实只是字符串中的特殊字符,例如$0$,就称这个为伪变量吧。
最后的要求就是使用正则获得下面这样一个字符串:
_C = '<ul><li>A</li><li>B</li><li>C</li><li>D</li></ul>';
IamUE给出了代码:
<script type="text/javascript"> var _A = ['A','B','C','D']; var _B = '<ul><li>$0$</li><li>$1$</li><li>$2$</li><li>$3$</li></ul>'; var reg=/\$\d+\$/ig; C=_B.replace(reg,function($1){ var indexnum=$1.replace(/\$/ig,""); if (indexnum<_A.length) {return _A[indexnum];} else{return ""} }); alert(C); </script>代码分析:看到代码之后感觉有点晕,首先,正则reg中没有任何的括号,应该是没有捕获内容的,那么后面怎么又使用$1了引用了呢?通过alert测试,发现它是整个正则匹配的内容,而且不一定要写作$1,可以写为$0,甚至是写为x都没关系,它总是整个匹配。
第一次,$1匹配到_B中的“$0$”,匿名函数中将它的$去掉,变成了0,检查是否越界之后,用这个0作为下标去访问数组_A。
由于正则reg定义了g属性,所以会继续替换$1$、$2$等等。步骤都和上面一样。
正则替换指定属性中的文本
来源:怎样用正则来查找替换?
有如下代码:
<td align="center"><img src="/UploadFiles/2021-04-02/O'Malley's West_jpg.gif">要求将所有onclick属性中的'替换成\',也就是将单引号转义。
首先,需要匹配onclick属性:
/onclick\s*=\s*".+"/ig 然后再将所有的'都替换成\'就可以了。
将阿拉伯数字替换为中文大写形式
来源:正则问题
将123替换成壹贰叁。
只要匹配一个数字就可以了,测试代码如下(如果显示为乱码就调整一下浏览器的字符编码):
function replaceReg(reg,str){ return str.replace(reg,function(m){return arr[m];}) } arr=new Array("零","壹","贰","叁","肆","伍","陆","柒","捌","玖"); var reg = /\d/g; var str = '13889294444'; var str2 = '12889293333'; var str3 = '23445567'; document.write(replaceReg(reg,str)+'<br />'); document.write(replaceReg(reg,str2)+'<br />'); document.write(replaceReg(reg,str3)+'<br />');替换文本中的URL为链接
来源:求一链接替换正则
将一个用户输入的一段文字中的url替换成可以点击的link地址。例如:http://www.blueidea.com可以替换成 [url]http://www.cctv.com[/url]
或<a href="http://www.cctv.com">http://www. blueidea.com</a>.
这个正则的关键就在于匹配链接,匹配之后,在两边加上a标签和属性不是问题。
/http:\/\/[\w-]*(\.[\w-]*)+/ig 首先匹配http://。
[\w-]*是可能的www和bbs等。
\.[\w-]*匹配.xxx形式,至少有一个。
测试代码如下:
<script type="text/javascript"> function replaceReg(reg,str){ return str.replace(reg,function(m){return '<a href="'+m+'">'+m+'</a>';}) } var reg = /http:\/\/[\w-]*(\.[\w-]*)+/ig; var str = '将一个用户输入的一段文字中的url替换成可以点击的link地址。测试一下:http://www.blueidea.com紧接着中文,还有http://bbs.blueidea.com \
is very good!http://blueidea.com!最后在看看带.cn的:http://www.sina.com.cn呵呵。';
document.write(replaceReg(reg,str)+'<br />');
</script>从HTML代码段删除指定标签极其内容
来源:关于正则的问题
在一段代码中去除<script ...... /script>, <head>...</head>,<%.....%>等代码块
隆的正则:
/<(script|meta|%)[\s\S]*"text/javascript">
我是要被删除的脚本
</script>
哎。就剩下我了。 但是,如果使用类似的正则:/<(script|head|%)[\s\S]*"text/javascript">
我是要被删除的脚本
</script>
</head>
哎。就剩下我了。 实际匹配的内容是:
<head>
<script type="text/javascript">
我是要被删除的脚本
</script>这是因为[\s\S]*"htmlcode">
<script type="text/javascript"> function replaceReg(reg,str){ var mark =0; return str.replace(reg,function(m){mark++;return '<br />'+arr[mark]+'、'+m;}) } var arr = ["零","壹","贰","叁","肆","伍","陆","柒","捌","玖"]; var reg = /\[title\]/ig; var str = '[title]标题一[/title]内容一232323sdfga [title]标题二[/title]内容二2232323 [title]标题三[/title]内容三2232323'; document.write(replaceReg(reg,str)+'<br />'); </script>转换源代码中的标签
来源:一个正则上的问题
将代码中的HTML标签img转换为[img]url[/img]。
/<img(".+")*"(.+"(".+")*\s*>/ig
这段正则和匹配链接标签的正则基本一样,修改如下,标签名img,没有结束标签而是>结束。
测试代码如下:
上一篇:javascript中使用正则表达式删除前后空格的方法<script type="text/javascript"> function replaceReg(reg,str){ return str.replace(reg,'[img]$1[/img]') } var reg = /<img(".+")*"(.+"(".+")*\s*>/ig; var str = '我就是传说中的图片了<img src="/UploadFiles/2021-04-02/URL">第二个是替换object代码嵌入的flash代码替换为Flash动画在线播放。
针对原文的正则如下:
/<object[\s\S]*"htmlcode">
<script type="text/javascript"> function replaceReg(reg,str){ return str.replace(reg,'Flash动画在线播放') } var reg = /<object[\s\S]*"xxx">LeXRus的第一个正则如下:
/("\s]+)/ig 第一个括号没看明白,JS应该是不支持。所以我擅自给删掉了,剩下的正则如下:
/(\s+\w+)\=([^>\"\s]+)/ig 第一个括号里的\s+\w+匹配的是属性名。
然后是=,不用转义。
第二个括号里的[^>\"\s]+匹配属性值。不匹配>”和空格。这里的引号不用转义。在意思不改变的情况下,稍微改了改,正则如下:
/(\s+\w+)=([^>"\s]+)/ig 需要注意的是这个正则不匹配=两边有空格的属性,例如href = xxx。相匹配的话就改成:
/(\s+\w+)\s*=\s*([^>"\s]+)/ig 代码:
str=str.replace(/("\s]+)/ig,'$1="$2"'); 其中'$1=”$2”'就实现了给属性值添加上双引号。不过ncs指出了这个正则替换的几个问题,一是上面的空格问题,二是如果非标签内部有等号,且前面又恰巧有空白字符的话,它将会被误识别为属性,例如:
<a href=xxx target=yyy title = asdfasf> test=sd
里面的test=sd也会被匹配。三是如果属性原来使用了单引号,会被再包上一层双引号……
来看看LeXRus前辈的新正则替换方法:
str=str.replace(/("\s]+)("$2"') .replace(/\"\'([^\'\"]+)\'\"/ig,'\"$1\"');先来看第一个正则:
/ (\s+\w+)\s*=\s*([^>"\s]+)("\s]+)("\'([^\'\"]+)\'\"/ig 这个正则用于匹配双引号,单引号多层嵌套的情况,同样,不用转义,修改正则如下:
/"'([^'"]*)'"/ig
这样基本任务就完成了。测试代码如下:
<script type="text/javascript"> function rp(str,trg){ var reg1 = /(\s+\w+)\s*=\s*([^<>"\s]+)("'([^'"]*)'"/ig; str=str.replace(reg1,'$1="$2"').replace(reg2,'\"$1\"'); trg.value=str; } </script> <textarea id="sou" style="width:100%"> <a href = xxx name=aaa target=_blank title='asdfasf' onclick=alert('blueidea')> asfd=asfd </textarea> <input type="button" onclick="rp(sou.value,sou)" value="replace"/>原帖里LeXRus又提出了新问题:
hint=i am lexrus
这样的属性会有问题,不过我感觉不加引号的话,属性值里就不可能有空格,否则会被识别为多个属性了。不过看到最后ncs的回帖我就哭了:
onclick=if(document.forms.length>0)
这样的属性怎么办?大于号会被识别为标签结束……还是分离行为与文档吧。补充一下,其实修补一下正则也可以解决,只要改成如下正则即可:
/(\s+\w+)\s*=\s*([^"\s]+)("htmlcode">
<table width="100%" border="0" cellpadding="2" cellspacing="3"> <table width="100%">正则:
/<table\s(\s*\w*".+")*"width: 23px; height: 26px;" align="left">***</td>
变成没有任何属性的
<td>***</td>
思路:非捕获匹配属性,捕获匹配标签,使用捕获结果替换掉字符串。正则如下:
/(<td)\s(".+")*"htmlcode">
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/2000/REC-xhtml1-20000126/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <META name="Author" content="Sheneyan" /> <script type="text/javascript"> function encode(s){ return s.replace(/&/g,"&").replace(/</g,"<").replace(/>/g,">").replace(/([\\\.\*\[\]\(\)\$\^])/g,"\\$1"); } function decode(s){ return s.replace(/\\([\\\.\*\[\]\(\)\$\^])/g,"$1").replace(/>/g,">").replace(/</g,"<").replace(/&/g,"&"); } function highlight(s){ if (s.length==0){ alert('搜索关键词未填写!'); return false; } s=encode(s); var obj=document.getElementsByTagName("body")[0]; var t=obj.innerHTML.replace(/<span\s+class=."$1"); obj.innerHTML=t; var cnt=loopSearch(s,obj); t=obj.innerHTML var r=/{searchHL}(({("<span class='highlight'>$1</span>"); obj.innerHTML=t; alert("搜索到关键词"+cnt+"处") } function loopSearch(s,obj){ var cnt=0; if (obj.nodeType==3){ cnt=replace(s,obj); return cnt; } for (var i=0,c;c=obj.childNodes[i];i++){ if (!c.className||c.className!="highlight") cnt+=loopSearch(s,c); } return cnt; } function replace(s,dest){ var r=new RegExp(s,"g"); var tm=null; var t=dest.nodeValue; var cnt=0; if (tm=t.match(r)){ cnt=tm.length; t=t.replace(r,"{searchHL}"+decode(s)+"{/searchHL}") dest.nodeValue=t; } return cnt; } </script> <style type="text/css"> .highlight{background:green;font-weight:bold;color:white;} </style> </head> <body> <form onsubmit="highlight(this.s.value);return false;"> <p><input name="s" id="s" title="搜索内容:"/><input type="submit" value="搜索"/></p> </form> <div id="content"> 测试高亮的代码。很长很长的代码…………………… </div> </body> </html>删除标签
来源:如何使用正则表达式去除大部分HTML标记?
删除除了<img>、<br>、<p>之外所有的标签。子虚乌有给出代码中关键的一句:
o.innerHTML.replace(/(<\/?(?!br|p|img)[^>\/]*)\/?>/gi,''); 刚开始没反应过来,后来才想起来,这个正则不用区分起始和结束标签。
<\/?(?!br|p|img)
匹配除了保护标签外标签的起始标签或者是结束标签的一部分。
[^>\/]*
匹配到>或者/就结束。
\/?>
起始标签或者结束标签的结尾。
下一篇:JavaScript正则表达式验证身份证号码是否合法(两种方法)