是否有可用于在Linux中读取HTML的C ++库?
答案 0 :(得分:2)
libcurl是你的朋友+整洁(HTML整洁),如果你有破坏的HTML来修复。
编辑:这是完整序列
HTML(文件中) - >整洁(这将清除格式错误的HTML) - > XSLT转换(您需要提供一个XSL文件来将HTML转换为latex),并使用libxml / libxsl(http://xmlsoft.org/) - >然后使用latex处理乳胶文档(通过分配乳胶命令)或者如果需要,可以下载lyx的源代码并查看它们是如何做的(http://www.lyx.org/)。不幸的是,序列太复杂而无法写入单个示例,我只能给出序列...
答案 1 :(得分:0)
答案 2 :(得分:0)
libxml2可以解析HTML,是ANSI C,并附带了很多绑定。