我想从html网页网址中提取一些div标签及其内部标签,并将这些标签转换为XML或JSON文件格式。我正在寻找解决方案(理论上)。有人可以请我提出任何建议吗?
答案 0 :(得分:0)
如果您使用的是VS2005及更高版本,这可能会对您有所帮助。使用与Visual Studio配合良好的Spire.doc工具。
Spire.Doc是一个MS Word组件,使用户可以直接执行各种Word文档处理任务,例如生成,读取,编写和修改.NET和Silverlight的Word文档。
Spire.Doc提供了一种将HTML转换为XML的简单解决方案。我们只需要在visual studio中创建一个项目,并使用下面简单的3行代码。现在,将下面的代码复制到项目中,将文件从HTML转换为XML。
[C#]
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using Spire.Doc;
namespace Xml2Pdf
{
class Program
{
static void Main(string[] args)
{
Document doc = new Document();
doc.LoadFromFile("sample.html", FileFormat.Html);
doc.SaveToFile("test.xml", FileFormat.Xml);
}
}
}
(注意:如果这样做,请投票给这个答案以便对其他人有所帮助)
此致
摩尼
答案 1 :(得分:0)
WebClient 类提供了从URI标识的任何本地,Intranet或Internet资源发送/接收数据的常用方法。
WebClient类使用 WebRequest 类来提供对资源的访问。 WebClient实例可以使用任何WebRequest访问数据。
您可以使用此对象执行三个步骤:
上面提到的只是理论上的东西 如果你真的想尝试它几乎this link可以帮助你从页面
获取HTML标签列表