提取HTML文本

时间:2012-08-14 08:57:28

标签: c# html

我正在解决一个问题。我将提取som HTML文本并将它们存储为Anchor对象。例如:

<html>
<head>
<title>{dynamihead/}</title>
</head>

<body>
{repeatinghtml}
<p>{repeatinganchor1/}</p>
<p>{repeatinganchor2/}</p>
<p>{repeatinganchor3/}</p>
<p>{repeatinganchor4/}</p>
{/repeatinghtml}
</body>
</html>

我想提取{}锚点。如果它是一个selfterminating achour我想创建{dynamihead /}这个锚对象。但如果它包含childAnchours我想提取像

{repeatinghtml}
    <p>{repeatinganchor1/}</p>
    <p>{repeatinganchor2/}</p>
    <p>{repeatinganchor3/}</p>
    <p>{repeatinganchor4/}</p>
{/repeatinghtml}

我想提取所有子锚点并将其放入主锚点中。我已经取消了Anchor类,但我对字符串处理不太熟练,所以我无法提取我想要的文本。这是一个winform应用程序,它将加载模板hmlt文件,将其处理并将信息存入ancours并发送电子邮件为html格式。

1 个答案:

答案 0 :(得分:1)

尝试查看HtmlAgility库。即使乍一看它看起来更简单,但有一个lot of reasons to avoid using regex for such problems,并且可能不足以进行更严格的字符串处理。