我列出了由不同代理商发布的1,000篇文章网址,当然每个网站都有自己的HTML布局。 我正在编写一个python代码,只从每个URL中提取文章正文。这可以通过仅查看< p为H.< / p为H.段落标签? 我会遗漏一些内容吗?或通过这种方法包括不相关的内容?
谢谢
答案 0 :(得分:0)
要回答您的问题,您很可能只能获得定位<p></p>
标记的文章内容。你会得到很多不必要的内容,需要花费大量的精力来过滤,保证。
尝试为这些网站查找RSS源。这将使解析目标数据比解析整个HTML页面更容易。
答案 1 :(得分:0)
对于某些文章,您将缺少内容,而对于其他文章,您将包含不相关的内容。实际上没有办法从URL中获取文章正文,因为每个网站布局可能会有很大差异。
您可以尝试的一件事是抓取身体标签内多个连续p标签中包含的文字,但仍无法保证您只能获得文章的正文。
如果您将URL列表分解为每个不同站点的列表会更容易,那么您可以根据具体情况定义文章正文。