我正在使用erlang卷曲网页并自然地获取HTML代码,到目前为止一切顺利! 这就是我的代码的样子:
startCURL()->
Cmd = "curl \"" ++ "http://mywebsite.com/something.html" ++ "\"",
Output = os:cmd(Cmd),
io:format("The HTML output: ~s~n", [Output]).
现在问题,我想通过erlang排除html中的各种标签。例:
没有<b>
和</b>
的{{1}}你好<b>
到“你好”。
我非常感谢能得到的所有帮助! 谢谢!
答案 0 :(得分:1)
您可以使用re module中的替换功能将不需要的标签替换为空字符串。
re:replace(Output, "</?br>", "", [global]).
答案 1 :(得分:0)
This blog post展示了如何使用mochiweb_html
对HTML文档进行各种操作。希望这足以让你开始。