应用错误收集

从URL中提取文本

时间：2011-09-29 12:23:35

标签： c# url

问题是我需要只提取给定URL的文本内容。我应该坚持认为我只需要文本内容。互联网上有很多方法可以返回网页的所有内容而不会有任何文本分离。

我需要用c＃语言编写代码。

感谢您的回答

2 个答案:

答案 0 :(得分：0)

使用HTML时，没有“只是文本”这样的东西。您在网页上看到的文本将根据标记的定义方式进行呈现。

您可以手动删除<body></body>标记之间的所有HTML标记，然后您就会看到页面上所有文字的内容。但是，这很容易出错。

你在网上找到的大多数解决方案都会选择正则表达式（类似Regex.Replace(str, "<(.|\n)*?>", string.Empty);），但是如果你使用它，你可能有一天会在脚上射击。

答案 1 :(得分：0)

你需要使用一些解析技术来获取文本，你可以使用Xpath或正则表达式来获取文本来提供Url的Html