Question

我想从html网页网址中提取一些div标签及其内部标签，并将这些标签转换为XML或JSON文件格式。我正在寻找解决方案（理论上）。有人可以请我提出任何建议吗？

Answer 1

如果您使用的是VS2005及更高版本，这可能会对您有所帮助。使用与Visual Studio配合良好的Spire.doc工具。

Spire.Doc是一个MS Word组件，使用户可以直接执行各种Word文档处理任务，例如生成，读取，编写和修改.NET和Silverlight的Word文档。

Spire.Doc提供了一种将HTML转换为XML的简单解决方案。我们只需要在visual studio中创建一个项目，并使用下面简单的3行代码。现在，将下面的代码复制到项目中，将文件从HTML转换为XML。

[C＃]

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using Spire.Doc;

namespace Xml2Pdf
{
    class Program
    {
        static void Main(string[] args)
        {
            Document doc = new Document();
            doc.LoadFromFile("sample.html", FileFormat.Html);
            doc.SaveToFile("test.xml", FileFormat.Xml);
        }
    }
}

（注意：如果这样做，请投票给这个答案以便对其他人有所帮助）

此致

摩尼

Answer 2

WebClient 类提供了从URI标识的任何本地，Intranet或Internet资源发送/接收数据的常用方法。

WebClient类使用 WebRequest 类来提供对资源的访问。 WebClient实例可以使用任何WebRequest访问数据。

您可以使用此对象执行三个步骤：

从网址或这些网页获取HTML /锚点代码/ Div内容
将集合导出为JSON或XML
稍后使用JSON或XML数据：p

上面提到的只是理论上的东西如果你真的想尝试它几乎this link可以帮助你从页面

拉出一些div标签并用c＃放入json或xml文件格式

2 个答案: