你的位置:首页 > Java教程

[Java教程]常见的Regex表达式(更新RFC标准的email检验)


转自 http://segmentfault.com/a/1190000000631567

数字(Number)

除正常的数字(digit)之外,还有可能包括正、负号,科学计数法,小数位,甚至用逗号分隔千分位。

逻辑规则:

  • 起始位后一定是+/-号,也可以没有 ^[+-]?
  • 至少有一位以上的数字 \d+
  • 可能会跟着千分位分隔的逗号,暂时不考虑是否一定是3位分隔,规则可以出现一次或多次 (,\d+)*
  • 如果是小数那么一定是小数点后带有至少一位以上的数字,规则仅能出现一次 (.\d+)
  • 如果是科学计数法,则前面一定是小数,后面跟有e和次幂,规则仅能出现一次 (.\d+(e\d+))
  • 任何数字的结尾必须是数字

满足上述条件检验数字的正则表达式为:^[+-]?\d+(,\d+)*(.\d+(e\d+)?)?$

符合该条件的example包括:

  • 3 (整数)
  • 3.14 (小数)
  • +3.14 (带有+标识数字)
  • -2.5 (带有-标识数字)
  • 128,234 (会计计数法)
  • 1.9e10 (科学计数法)

且过滤掉小数点重复出现多次,科学技术法不合规或重复出现多次,非数字如720p的字符串
此处尤其要注意科学的条件,前面必须是合法小数后面是e和次幂,注意次幂必须有。


电话号码(Phone Numbers)

美国的电话号码规则:总计10位数字,但有可能带有国家号码1。可以接受的输入格式包括:

  • xxx-xxx-xxxx
  • xxx xxx xxxx
  • (xxx)xxx-xxxx
  • xxxxxxxxxx
  • 1 上述格式组合
  • +1 上述格式组合

满足上述条件检验美国电话的正则表达式为:^(+?1[\s-])?(?\d{3})?[\s-]?\d{3}[\s-]?\d{4}$

进一步可以将国家号的验证修改为(+?\d+[\s-])?,这样就可以支持诸如+86, 86 , 86-这样的格式了。

中国的手机规则:总计11位数字,一般情况下不加上任何特殊符号的分隔。如果仅考虑以下4种格式:

  • xxxxxxxxxxx
  • +86-xxxxxxxxxxx
  • +86 xxxxxxxxxxx
  • +86xxxxxxxxxxx

满足上述条件检验中国手机号码的正则表达式为:^(+86[\s-]?)?\d{11}$


邮件(Email)

由于工作需要,更详细的查阅了RFC对于邮件地址的标准要求。Google了很久居然始终没有找到一份靠谱的中文翻译。在此共享给大家,希望大家不用再去痛苦的翻那RFC晦涩的文档。

根据RFC 3696的规定,邮件地址(Email Address)被@符号分割为以下两个组成部分:local name和domain name.

Local Name

  • 长度不超过64个字符
  • 可以由除@、反斜杠()、双引号("")、逗号和方括号([ ])之外,任何ASCII Graphic字符组成。
  • 可以使用句号(.),但是不能出现在首尾的位置
  • 对于一些特殊情况,如老旧的系统、特殊目的的服务器,可以使用全部ASCII字符(包括控制字符在内),但是必须使用反斜杠转义单个字符,或者使用双引号转义整个字符串。

Domain Name

  • 长度不超过255个字符
  • 只可以使用字母、数字和短横线(-)
  • 可以使用短横线(-),但是不能出现在首尾的位置
  • 其余的要求包括顶级域名的白名单,每一级域名不可以超过64个字符、不可全部由数字组成等等

对于日常使用中,忽略Local Name第4点的要求1和Domain Name对域名合法性的过滤,可以使用如下正则表达式检验Email的合法性:

^[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+(.[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?.)+[A-Za-z0-9]+(-[A-Za-z0-9]+)?$

如果使用Javascript的话,可以通过split函数,进一步检验每一部分的长度。

isemail: function(string){  if(typeof string === "string"){    var regex = /^[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?\.)+[A-Za-z0-9]+(?:-[A-Za-z0-9]+)?$/;    var temp = string.split("@");    return regex.test(string) && temp[0].length <= 64 && temp[1].length <= 255;   }   else{     return false;   }}

邮件的格式较为复杂,虽然实际上允许多级域名,只要长度保证在255个字符以内即可。不过更加常见的情况是,考虑@前面使用字符和.的情况,以及@后面可能会有二级域名的情况。如果不要求严格性而只是起到对于用户的提示作用的话,满足上述条件检验邮件的正则表达式为:^[\w.]+(+[\w.]+)?@\w+(.\w+){1,2}$

如果可能的话,理解了原理之后,还是更加推荐使用成熟的库自带的email检验函数,毕竟重复造轮子不是一件非常有效率的事情。


密码(Password)

不同强度的密码,
要求至少包含数字或字母:[\da-zA-Z]\d+[a-zA-Z]+[\da-zA-Z]

必须数字、字母和特殊字符3种混排的:
(\d+[a-zA-Z]+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #数字开头 |(\d+[-=\[];',./~!@#$%^&()_+|{}:"<>?]+[a-zA-Z]+) #数字开头
|([a-zA-Z]+\d+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #字母开头 |([a-zA-Z]+[-=\[];',./~!@#$%^&
()+|{}:"<>?]+\d+) #字母开头
|([-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+\d+[a-zA-Z]+) #特殊字符开头 |([-=\[];',./~!@#$%^&*()
+|{}:"<>?]+[a-zA-Z]+\d+) #特殊字符开头


IP地址

IP地址是由4个使用句号(.)分割的数字序列组成,每段的数值取值在0-255之间。
由于数字会被当成字符看待,而没有大小关系,使用正则表达式检验数字范围是一件非常麻烦的事情。

检验IP地址的正则表达式如下:
(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9]).{3}(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])

使用Javascript,稍微优雅一点的表达方式

ip: function(string){  var octet = '(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])';  var ip  = '(?:' + octet + '\\.){3}' + octet;  var ipRE = new RegExp( '^' + ip + '$' );  return ipRE.test(string);}

HTML

HTML更为推荐使用其他的方式而非正则表达式进行过滤。
获取Tag:<(\w+)
获取Tag内容:>([\w\s])<
获取Attribute的值:='([\w://.]
)