Erlang卷曲并排除各种文本/标签

时间:2012-10-03 12:46:24

标签: curl erlang

我正在使用erlang卷曲网页并自然地获取HTML代码,到目前为止一切顺利! 这就是我的代码的样子:

startCURL()->
Cmd = "curl \"" ++ "http://mywebsite.com/something.html" ++ "\"",
Output = os:cmd(Cmd),
io:format("The HTML output: ~s~n", [Output]).

现在问题,我想通过erlang排除html中的各种标签。例: 没有<b></b>的{​​{1}}你好<b>到“你好”。

我非常感谢能得到的所有帮助! 谢谢!

2 个答案:

答案 0 :(得分:1)

您可以使用re module中的替换功能将不需要的标签替换为空字符串。

re:replace(Output, "</?br>", "", [global]). 

答案 1 :(得分:0)

This blog post展示了如何使用mochiweb_html对HTML文档进行各种操作。希望这足以让你开始。