如何抓取不在标签中的网络数据

时间:2017-05-23 02:33:42

标签: python html beautifulsoup web-crawler python-requests

<div id="main-content" class="content">
<div class="metaline">
<span class="article-meta author">jorden</span>
</div>
 "
 1.name:jorden> 
 2.age:28

  --
 "
 <span class="D2"> from 111.111.111.111 </span>
  </div>

我只需要

  

1.name:jorden
  2.年龄:28

xxx.select('#main-content')这将返回所有内容,但我只需要其中的一部分。 因为它们没有任何标签,我不知道该怎么做。

1 个答案:

答案 0 :(得分:1)

您希望在相关文本之前找到标记(在您的情况下为a),然后在HTML解析中查看 next 兄弟树:

<div class="metaline">

获得原始文本后,将其删除等等。