如何使用C将HTML解析为.txt格式

时间:2017-01-05 17:18:17

标签: html c

我需要使用C.

将HTML解析为.txt格式

一个例子 - 它必须检测每个

1. <p>
2. <tr>
3. <ul> etc...

并将它们转换为文本(在文档中)

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:-1)

我认为,在html下载c网页的最简单方法是使用libcurl。假设您已经设置了开发环境,请按照以下步骤操作:

  1. 访问libcurl download page 并下载其最新版本。
  2. 查看 install page 并了解如何安装库。对于Linux,安装非常简单,只需在终端中键入./configure && make && make install即可。
  3. 下载libcurl的{​​{3}}示例。此文件中公开的<curl/curl.h>头文件实际上提供了必要的功能,以便您与Web服务器进行通信。
  4. 接下来,使用url2file.c
  5. 编译gcc -o url2file url2file.c -lcurl
  6. 最后,使用url2file测试./url2file http://example.com。结果将存储在明文的page.out文件中。
  7. 注意:

    1. 您需要安装libcurl才能编译url2file.c文件,除非它会抛出fatal error
    2. 如果您已在计算机上安装了curl程序,则可以在终端中使用curl http://example.com > page.out命令下载网页。
    3. 此外,wget可让您下载和存储网页:wget http://example.com
    4. 此答案将网页存储为pliantext。它不会执行任何特定的html标记处理。