我需要使用C.
将HTML解析为.txt格式一个例子 - 它必须检测每个
1. <p>
2. <tr>
3. <ul> etc...
并将它们转换为文本(在文档中)
有人可以帮忙吗?
答案 0 :(得分:-1)
我认为,在html
下载c
网页的最简单方法是使用libcurl。假设您已经设置了开发环境,请按照以下步骤操作:
libcurl
的 download page 并下载其最新版本。./configure && make && make install
即可。libcurl
的{{3}}示例。此文件中公开的<curl/curl.h>
头文件实际上提供了必要的功能,以便您与Web服务器进行通信。url2file.c
。gcc -o url2file url2file.c -lcurl
url2file
测试./url2file http://example.com
。结果将存储在明文的page.out
文件中。注意:
libcurl
才能编译url2file.c
文件,除非它会抛出fatal error
。curl
程序,则可以在终端中使用curl http://example.com > page.out
命令下载网页。 wget
可让您下载和存储网页:wget http://example.com
。html
标记处理。