你的位置:首页 > ASP.net教程

[ASP.net教程]正则表达式处理xml十六进制异常


     自从我们的项目数据层从读取数据库改为读取接口服务后,经常会出现一些类似于的错误。我们的数据结构如下所示

1  <type><![CDATA[gp]]></type> 2      <detail><![CDATA[刘?->->,C#为正则表达式提供了强大的支持,本课程重点讲述在C#环境下使用正则表达式,并能够学会分析创建属于自己的正则表达式,学习正则表达式请访问http://edu.51cto.com/course/course_id-4664.html]]></detail> 3  <housepurpose><![CDATA[住宅]]></housepurpose>

接口数据

在用户输入的数据中常常有一些小人箭头之类的特殊符号(由于在www.cnblogs.com/xietong下不支持这些特殊符号,所以读者在我举例的数据结构中看不到这些特殊符号),我曾经尝试匹配这些特殊字符,然而未能找到与之相匹配的unicode代码区块,所以采用了匹配正常字符的方式来获取合法的数据用于

      string content = sb.ToString();      MatchCollection matches = Regex.Matches(content, @"(\w|\p{P}|[<>=]|\s)*");      sb = new StringBuilder();      foreach (Match m in matches)      {        sb.Append(m.Value);      }      content = sb.ToString();

  在运行之后发现类似异常虽然少了很多,但还是有一部分异常,查看这些异常发现造成这些异常的原因正是存在16进制的字符,数据如下:

1 <shinimgs><![CDATA[http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M09/01/12/wKgEUFXaYrSILIxEAAClop_zcLMAABrYAEF2hoAAKW6316/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEKlXaYrWIOQbmAACrV5PpfxIAAURwACqFtkAAKtv885/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M04/0C/FA/wKgELFXaYrSIVo9xAAB3vv5fpe8AAURuwMY6CsAAHfW851/120x120.jpg;http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M00/01/12/wKgEUFXaYrSIQR6mAABxJ5OYy6AAABrWQPffz0AAHE_808/120x120.jpg]]></shinimgs> 2      <xqimgs><![CDATA[http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEdqIFbqUAADuyIgGO48AANp_AOJcvcAAO7g917/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEK1XaYrWIaxkaAACwvmucOS8AAURwACqwkgAALDW084/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_07/04/M08/0A/E5/wKgEKlWXSA2IXitfAACu3NyaN_wAARBpgNFzlcAAK70576/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEd-IJevUAACSMy8yODUAANp_AOZCjMAAJJL453/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M09/08/BD/wKgELFVQEd-ISF5YAADAL5IP7McAANqDAHBU9cAAMBH365/120x120.jpg]]></xqimgs> 

View Code

      如果直接将0x式样的16进制去掉,那么这些图片就无法找到正确地址,似乎有些粗鲁。为此,我决定将相应的变量先取出来,然后在读取出来的DataSet中重新对相应字段赋值。我的代码如下:

 1  MatchCollection imatches = null; 2       if (Regex.IsMatch(content, "0x[0-9a-fA-F]+", RegexOptions.IgnoreCase)) 3       { 4         Regex regex = new Regex(@"<(?'tag'\w+?)><!\[CDATA\[(?'text'.*?0[Xx].*?)\]\]></\k'tag'>"); 5         imatches = regex.Matches(content); 6         if (imatches != null) 7         { 8           content = regex.Replace(content, "<${tag}></${tag}>"); 9         }10       }11 12       System.new System.13       xd.Load14       System.new System.15       ds.Read16       xnr.Close();17       if (imatches != null && imatches.Count > 0 && ds != null && ds.Tables.Count > 0)18       {19         foreach (Match m in imatches)20         {21           foreach (DataTable table in ds.Tables)22           {23             if (table.Columns.Contains(m.Groups["tag"].Value))24             {25               table.Rows[0][m.Groups["tag"].Value] = m.Groups["text"].Value;26               break;27             }28           }29         }30       }

          在上面的代码中用到了正则的文本替换及分租,如果有不理解的地方可以在http://edu.51cto.com/course/course_id-4664.html中学习一下基本的C#正则表达式知识。

         上面的代码经测试可以正常运行,但放到那里呢,虽然在try-catch抛出异常,在异常中处理的话要耗费几百了时钟周期,但鉴于问题数据只是一小部分,并且上面的正则表达式的效率并不太高,所以我将上面的代码放在了catch语句块中。