应用错误收集

时间：2017-08-17 17:54:12

标签： python html-parsing

我列出了由不同代理商发布的1,000篇文章网址，当然每个网站都有自己的HTML布局。我正在编写一个python代码，只从每个URL中提取文章正文。这可以通过仅查看＆lt; p为H.＆LT; / p为H.段落标签？我会遗漏一些内容吗？或通过这种方法包括不相关的内容？

谢谢

答案 0 :(得分：0)

要回答您的问题，您很可能只能获得定位<p></p>标记的文章内容。你会得到很多不必要的内容，需要花费大量的精力来过滤，保证。

尝试为这些网站查找RSS源。这将使解析目标数据比解析整个HTML页面更容易。

答案 1 :(得分：0)

对于某些文章，您将缺少内容，而对于其他文章，您将包含不相关的内容。实际上没有办法从URL中获取文章正文，因为每个网站布局可能会有很大差异。

您可以尝试的一件事是抓取身体标签内多个连续p标签中包含的文字，但仍无法保证您只能获得文章的正文。

如果您将URL列表分解为每个不同站点的列表会更容易，那么您可以根据具体情况定义文章正文。