基于HTML文档中标签的循环

时间:2018-06-20 13:38:46

标签: html python-3.x loops beautifulsoup

我正在尝试从结合在html文件中的文章中提取某些详细信息。该html文件将包含1000篇文章,因此请尝试使用BeautifulSoup自动提取。对于第一篇文章,我可以提取它,但似乎并没有自动将其移至下篇文章。这是html的样子:

        <DOCFULL> -->
          <br/>
          <div class="c0">
           <p class="c1">
            <span class="c2">
             2 of 4 DOCUMENTS
            </span>
           </p>
          </div>
          <br/>
          <div class="c0">
           <br/>
           <p class="c1">
            <span class="c2">
             The New York Times
             <br/>
            </span>
    ...
        </DOCFULL>

    ...
        <DOCFULL> -->
          <br/>
          <div class="c0">
           <p class="c1">
            <span class="c2">
             1 of 4 DOCUMENTS

因此,我不知何故需要以下命令(一旦完成)再次适用于下一篇文章,它将重新开始->。但是我只是无法使其按需要的方式工作。例如,在我上面使用的部分html中提取“纽约时报”,它也应该自动处理到第二/第三/第四等文章。

journal = soup.find_all('span', class_='c2')[1].getText()

如果有人能指出我的方向,我应该开始思考,将不胜感激!

编辑: 只是为了更加透视我正在努力实现的目标。我可以使后一部分起作用,但不要让它检查前者之后的每篇文章。

For Each Article:
   * Determine Newspaper
      * If newspaper = x
              .
              .
              .
      * Else 
              Continue

0 个答案:

没有答案