需要帮助无格式化文本

时间:2010-06-09 15:16:24

标签: html regex formatting

我目前正在编写Visual C#服务以接收来自各种来源的电子邮件,然后我获取某些信息并使用Regex将其组织在数据库中以检索不同的单元格值(例如标题,正文,问题,成本等等) )。

我的问题是我目前正在使用Hotmail帐户向服务发送电子邮件,然后该服务提取数据并将其写入csv文件;然而,除了事实上文本是格式化的,所以当存在“\ n”或某种类型的东西时,程序决定不将其后面的数据输入到单元格中。

例如,如果我通过电子邮件发送:

费用:$ 1000.00包装

体:

Lorem ipsum dolor坐下来,精神上的精神。 Sed vulputate mattis dolor,dapibus turpis lacinia mollis。在enim nulla fusce,坐在amet gravida dolor。 Suspendisse at nisi velit,vel ornare odio。整合metus justo,imperdiet et pellentesque in facilisis dignissim metus。 Suspendisse的潜力。 Vivamus purus nisl,hendrerit坐在amet rutrum eu,euismod in felis。 Maecenas blandit,metus ac eleifend vulputate,nibh ligula mollis mi,non malesuada nunc tellus ac risus。在rutrum elit。 Proin metus sem,ullamcorper ut rhoncus sed,semper nec tellus。 Maecenas adipiscing nisl nec elit egestas vel bibendum justo vehicula。

Aliquam erat volutpat。 Nullam fermentum enim in magna consequat a lacinia felis iaculis。 Ut odio justo,consectetur nec cursus eu,dignissim non sapien。 Duis tincidunt fringilla aliquet。 Vivamus elementum lobortis massa vel posuere。 Aenean non congue odio。 Aenean aliquam elit volutpat tortor tempor pharetra。 Mauris non est eu orci ultricies lacinia。 Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Ut vitae orci lectus,坐在amet convallis nunc。 Vivamus feugiat在pretium ante congue上对justo auctor进行了赌注。在hac habitasse platea dictumst。在feugiat odio的Sed。

身体细胞看起来如下:

<span class=3D"ecxecxApple-style-s=
pan" style=3D"font-family:Arial=2C Helvetica=2C sans=3Bfont-size:11px"><p s=
tyle=3D"text-align:justify=3Bfont-size:11px=3Bline-height:14px=3Bmargin-rig=
ht:0px=3Bmargin-bottom:14px=3Bmargin-left:0px=3Bpadding-top:0px=3Bpadding-r=
ight:0px=3Bpadding-bottom:0px=3Bpadding-left:0px">Lorem ipsum dolor sit ame=
t=2C consectetur adipiscing elit. Praesent in augue nec justo tempor varius=
 eu et tellus. Nunc id massa tortor=2C ut lobortis sem. Class aptent taciti=
 sociosqu ad litora torquent per conubia nostra=2C per inceptos himenaeos. =
Maecenas quis nisl nec quam tristique posuere sed at nibh. Cras fringilla v=
estibulum metus vel porttitor. Cras iaculis=2C erat nec gravida accumsan=2C=
 metus felis vestibulum risus=2C quis venenatis nisl nulla sed diam. Aenean=
 quis viverra velit. Etiam quis massa lectus=2C faucibus facilisis sem. Cur=
abitur non eros tellus. Sed at ligula neque. Donec elementum rhoncus volutp=
at. Curabitur eu accumsan erat. Phasellus auctor odio dolor=2C ut ornare au=
gue. Suspendisse vel est nibh. Vivamus facilisis placerat augue sit amet al=
iquam. Maecenas viverra=2C ipsum a tincidunt elementum=2C arcu tellus rutru=
m ipsum=2C et dignissim urna orci ac mi. Vivamus non odio massa. Nulla cong=
ue massa eu leo pretium non consequat urna molestie.</p><p style=3D"text-al=
ign:justify=3Bfont-size:11px=3Bline-height:14px=3Bmargin-right:0px=3Bmargin=
-bottom:14px=3Bmargin-left:0px=3Bpadding-top:0px=3Bpadding-right:0px=3Bpadd=
ing-bottom:0px=3Bpadding-left:0px">Integer neque odio=2C scelerisque at mol=
estie quis=2C congue sed arcu. Praesent a arcu odio. Donec sollicitudin=2C =
quam vel tincidunt lobortis=2C urna augue cursus lorem=2C in eleifend nunc =
risus nec neque. Donec euismod mauris non nibh blandit sollicitudin. Vivamu=
s sed tincidunt augue. Suspendisse iaculis massa ut tellus rutrum auctor. C=
ras venenatis consequat urna in viverra. Ut blandit imperdiet dolor non sce=
lerisque. Suspendisse potenti. Sed vitae lacus ac odio euismod tempus. Aene=
an ut sem odio. Curabitur auctor purus a diam iaculis facilisis. Integer mo=
lestie commodo mauris a imperdiet. Nunc aliquet tempus orci sit amet viverr=
a.</p><p style=3D"text-align:justify=3Bfont-size:11px=3Bline-height:14px=3B=
margin-right:0px=3Bmargin-bottom:14px=3Bmargin-left:0px=3Bpadding-top:0px=
=3Bpadding-right:0px=3Bpadding-bottom:0px=3Bpadding-left:0px">Morbi ultrici=
es fermentum magna=2C et ultricies urna convallis non. Aenean nibh felis=2C=
 faucibus et pellentesque ultrices=2C accumsan a ligula. Aliquam vulputate =
nisi vitae mi pretium et pretium nulla aliquet. Nam egestas diam vel elit c=
ommodo fermentum. Aenean venenatis bibendum tellus=2C eget scelerisque risu=
s consequat ut. In porta interdum eleifend. Cras laoreet venenatis pulvinar=
.. Praesent ultricies tristique lorem=2C quis interdum arcu scelerisque nec.=
 Quisque arcu tellus=2C consectetur vel mattis nec=2C feugiat ac quam. Prae=
sent sit amet fermentum nulla. Nulla lobortis=2C odio vitae elementum aucto=
r=2C libero turpis condimentum mi=2C sed aliquet felis sapien nec tortor. I=
nteger vehicula=2C neque in egestas accumsan=2C felis metus sagittis nulla=
=2C eu dapibus ligula ipsum ut sapien. Nulla quis urna tortor=2C sed facili=
sis leo. In at metus sed velit venenatis varius. Fusce aliquam mattis enim=
=2C vitae tincidunt sem cursus in.</p><p style=3D"text-align:justify=3Bfont=
-size:11px=3Bline-height:14px=3Bmargin-right:0px=3Bmargin-bottom:14px=3Bmar=
gin-left:0px=3Bpadding-top:0px=3Bpadding-right:0px=3Bpadding-bottom:0px=3Bp=
adding-left:0px">Proin tincidunt ligula at ligula bibendum vitae condimentu=
m nunc congue. Curabitur ac magna nibh=2C vel accumsan nisl. Duis nec eros =
et purus vestibulum tincidunt at sit amet libero. Donec eu nibh eros. Pelle=
ntesque habitant morbi tristique senectus et netus et malesuada fames ac tu=
rpis egestas. Donec accumsan=2C tellus at luctus faucibus=2C est nibh sempe=
r diam=2C vitae adipiscing lorem tellus vel nulla. Donec eget ipsum ut lore=
m tristique ultricies. Aliquam sem diam=2C semper sit amet volutpat pretium=
=2C lobortis et eros. Sed vel iaculis metus. Phasellus malesuada elementum =
porta.</p><p style=3D"text-align:justify=3Bfont-size:11px=3Bline-height:14p=
x=3Bmargin-right:0px=3Bmargin-bottom:14px=3Bmargin-left:0px=3Bpadding-top:0=
px=3Bpadding-right:0px=3Bpadding-bottom:0px=3Bpadding-left:0px">Fusce tinci=
dunt dignissim massa quis dapibus. Sed aliquet consequat orci=2C eu cursus =
libero dapibus vitae. Pellentesque at felis felis=2C vitae condimentum libe=
ro. Vivamus eros erat=2C elementum et tristique vitae=2C mattis et neque. P=
raesent bibendum leo ac tortor congue id mollis libero ornare. Pellentesque=
 adipiscing accumsan mi=2C a bibendum purus dignissim id. Cum sociis natoqu=
e penatibus et magnis dis parturient montes=2C nascetur ridiculus mus. Morb=
i mollis nisi in nibh cursus facilisis. Ut eu quam dolor=2C sit amet congue=
 orci. Aliquam quam dolor=2C viverra vitae varius sed=2C molestie et quam. =
Suspendisse purus mauris=2C fermentum condimentum pharetra at=2C molestie a=
 nunc. Nam rhoncus euismod venenatis. Nam pellentesque quam ac ipsum volutp=
at a eleifend odio imperdiet. Class aptent taciti sociosqu ad litora torque=
nt per conubia nostra=2C per inceptos himenaeos. Nulla in nunc magna. Lorem=
 ipsum dolor sit amet=2C consectetur adipiscing elit. Donec pretium tincidu=
nt gravida.</p></span> 

正如你所知,我需要一种摆脱所有html垃圾并让它再次可读的方法。无论如何使用正则表达式做到这一点?或者更简单的方法。

干杯

1 个答案:

答案 0 :(得分:1)

如何用<[^>]+>替换\n(或者平台的换行符是什么)?

这将用换行符替换每个标记(只要您的标记在属性中不包含> - 这是尝试使用正则表达式解析HTML时的风险之一。)

然后,无需替换=(2C|\n)