当我在html中遇到注释时,如何使用Beautifulsoup停止提取href标签?

时间:2015-09-25 20:29:51

标签: python html beautifulsoup

    03420&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03420">Nucleotide excision repair</a><br>
    03430&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03430">Mismatch repair</a><br>
    03440&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban03440">Homologous recombination</a><br>
      </ul>
    </ul>
    <!-- -->
    <b>Environmental Information Processing</b>
    <ul>
     Membrane transport
      <ul>
    02010&nbsp;&nbsp;<a href="/kegg-bin/show_pathway?ban02010">ABC transporters</a><br>

我需要使用python从网页中提取通路代码(例如03420,03430等),我已经使用Beautifulsoup完成了。我想在环境信息处理之前停止,所以我在这里寻找一些我可以使用的独特标签。 <!-- -->处于完美的位置,但我无法弄清楚如何在此时停下来。有人可以告诉我是否/如何使用它来停止在评论之前提取代码。 (我对python和html很新,并且通常会跳到网页解析,所以请耐心等待。)

3 个答案:

答案 0 :(得分:4)

HTMLXHTMLXML中,<!--开始评论范围并-->完成。它是一个注释,它不会影响浏览器的结果,但会在响应中添加一些字节。

<!-- comment some text 
     and you can break lines.
     It is compatible for html, xhtml and xml.
-->

在其他语言中,您有其他的sintax用于评论,例如:

/* this is a comment for C, C++, C#, Java, Javascript, CSS, etc.
   you can break lines */

// this is a single line comment for C, C++, C#, Java, Javascript.. you can't break lines here

如果您想要this link,请详细了解评论。

答案 1 :(得分:3)

它是html语法中的块注释。 http://www.w3schools.com/html/html_comments.asp

答案 2 :(得分:0)

这是一条没有任何内容的HTML评论。

目前它似乎没有任何意义,因为它在页面中没有填充任何功能,但它可能会有共鸣。我可能会在一些服务器代码中显示一些内部信息,所以依靠它保持相同的风险是有点冒险的。

如果它只是一个空注释,页面的作者可能会决定将其清除。

以下标记中的文字看起来更可靠,因为它实际上在页面中起作用。