如何在Linux中使用c ++库读取html?

时间:2010-10-26 15:59:08

标签: c++ html linux

是否有可用于在Linux中读取HTML的C ++库?

3 个答案:

答案 0 :(得分:2)

libcurl是你的朋友+整洁(HTML整洁),如果你有破坏的HTML来修复。

编辑:这是完整序列

HTML(文件中) - >整洁(这将清除格式错误的HTML) - > XSLT转换(您需要提供一个XSL文件来将HTML转换为latex),并使用libxml / libxsl(http://xmlsoft.org/) - >然后使用latex处理乳胶文档(通过分配乳胶命令)或者如果需要,可以下载lyx的源代码并查看它们是如何做的(http://www.lyx.org/)。不幸的是,序列太复杂而无法写入单个示例,我只能给出序列...

答案 1 :(得分:0)

看看以下内容:

此外还有similar question被问到。

答案 2 :(得分:0)

尝试http://xmlsoft.org/

libxml2可以解析HTML,是ANSI C,并附带了很多绑定。