Question

我正在尝试从结合在html文件中的文章中提取某些详细信息。该html文件将包含1000篇文章，因此请尝试使用BeautifulSoup自动提取。对于第一篇文章，我可以提取它，但似乎并没有自动将其移至下篇文章。这是html的样子：

        <DOCFULL> -->
          <br/>
          <div class="c0">
           <p class="c1">
            <span class="c2">
             2 of 4 DOCUMENTS
            </span>
           </p>
          </div>
          <br/>
          <div class="c0">
           <br/>
           <p class="c1">
            <span class="c2">
             The New York Times
             <br/>
            </span>
    ...
        </DOCFULL>

    ...
        <DOCFULL> -->
          <br/>
          <div class="c0">
           <p class="c1">
            <span class="c2">
             1 of 4 DOCUMENTS

因此，我不知何故需要以下命令（一旦完成）再次适用于下一篇文章，它将重新开始->。但是我只是无法使其按需要的方式工作。例如，在我上面使用的部分html中提取“纽约时报”，它也应该自动处理到第二/第三/第四等文章。

journal = soup.find_all('span', class_='c2')[1].getText()

如果有人能指出我的方向，我应该开始思考，将不胜感激！

编辑： 只是为了更加透视我正在努力实现的目标。我可以使后一部分起作用，但不要让它检查前者之后的每篇文章。

For Each Article:
   * Determine Newspaper
      * If newspaper = x
              .
              .
              .
      * Else 
              Continue

基于HTML文档中标签的循环

0 个答案: