从Web文章中提取内容并以很好的方式显示它们

时间:2012-09-02 09:48:25

标签: php url rss xml-parsing web-crawler

我正在尝试制作一些允许人们从例如边缘的文章中输入网址的内容。它的作用是读取url / article并以可读性的方式显示它。但我真的陷入困境,我无法在任何地方找到有关如何做到这一点的信息。关于如何做到这一点有没有api。实际上,它只是扫描整个RSS只有一篇文章。

3 个答案:

答案 0 :(得分:0)

应该是最简单的方法:http://simplehtmldom.sourceforge.net/

你可以简单地定位像css / jquery

这样的元素

答案 1 :(得分:0)

您可以使用正则表达式快速完成此操作,也可以导入DOM。请注意,无论是使用正则表达式还是正确解析DOM,适用于一个网站的解决方案都不太可能适用于另一个网站而无需更改。

答案 2 :(得分:0)

您正在寻找boilerpipe。它应该完全符合你的要求。甚至还有一个Web API。您也可以下载该模块并从Python脚本中使用它。

您可以在此处选择的文章进行测试:http://boilerpipe-web.appspot.com。只需选择ArticleExtractor作为提取器。