我正在尝试从结合在html文件中的文章中提取某些详细信息。该html文件将包含1000篇文章,因此请尝试使用BeautifulSoup自动提取。对于第一篇文章,我可以提取它,但似乎并没有自动将其移至下篇文章。这是html的样子:
<DOCFULL> -->
<br/>
<div class="c0">
<p class="c1">
<span class="c2">
2 of 4 DOCUMENTS
</span>
</p>
</div>
<br/>
<div class="c0">
<br/>
<p class="c1">
<span class="c2">
The New York Times
<br/>
</span>
...
</DOCFULL>
...
<DOCFULL> -->
<br/>
<div class="c0">
<p class="c1">
<span class="c2">
1 of 4 DOCUMENTS
因此,我不知何故需要以下命令(一旦完成)再次适用于下一篇文章,它将重新开始->。但是我只是无法使其按需要的方式工作。例如,在我上面使用的部分html中提取“纽约时报”,它也应该自动处理到第二/第三/第四等文章。
journal = soup.find_all('span', class_='c2')[1].getText()
如果有人能指出我的方向,我应该开始思考,将不胜感激!
编辑: 只是为了更加透视我正在努力实现的目标。我可以使后一部分起作用,但不要让它检查前者之后的每篇文章。
For Each Article:
* Determine Newspaper
* If newspaper = x
.
.
.
* Else
Continue