拉出一些div标签并用c#放入json或xml文件格式

时间:2015-01-22 00:46:47

标签: c# html css xml json

我想从html网页网址中提取一些div标签及其内部标签,并将这些标签转换为XML或JSON文件格式。我正在寻找解决方案(理论上)。有人可以请我提出任何建议吗?

2 个答案:

答案 0 :(得分:0)

如果您使用的是VS2005及更高版本,这可能会对您有所帮助。使用与Visual Studio配合良好的Spire.doc工具。

Spire.Doc是一个MS Word组件,使用户可以直接执行各种Word文档处理任务,例如生成,读取,编写和修改.NET和Silverlight的Word文档。

Spire.Doc提供了一种将HTML转换为XML的简单解决方案。我们只需要在visual studio中创建一个项目,并使用下面简单的3行代码。现在,将下面的代码复制到项目中,将文件从HTML转换为XML。

[C#]

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using Spire.Doc;

namespace Xml2Pdf
{
    class Program
    {
        static void Main(string[] args)
        {
            Document doc = new Document();
            doc.LoadFromFile("sample.html", FileFormat.Html);
            doc.SaveToFile("test.xml", FileFormat.Xml);
        }
    }
}

(注意:如果这样做,请投票给这个答案以便对其他人有所帮助)

此致

摩尼

答案 1 :(得分:0)

WebClient 类提供了从URI标识的任何本地,Intranet或Internet资源发送/接收数据的常用方法。

WebClient类使用 WebRequest 类来提供对资源的访问。 WebClient实例可以使用任何WebRequest访问数据。

您可以使用此对象执行三个步骤:

  1. 从网址或这些网页获取HTML /锚点代码/ Div内容
  2. 将集合导出为JSON或XML
  3. 稍后使用JSON或XML数据:p
  4. 上面提到的只是理论上的东西 如果你真的想尝试它几乎this link可以帮助你从页面

    获取HTML标签列表