排除html代码关键字搜索中的单词集

时间:2015-08-10 10:04:55

标签: html python-2.7 search beautifulsoup python-requests

我正在开发一个为HTML代码创建标签的程序。该计划的工作方式如下:

  1. 选择随机样本网址
  2. 使用BeautifulSoup,它会抓取以查找连接到示例网址的所有相关网址
  3. 使用requests.get(url).text
  4. 将第2点中找到的网址的所有HTML代码转换为文本
  5. 执行一组预定义关键字的文本搜索
  6. 如果找到特定关键字则标记为1,如果未找到则标记为0
  7. 我的问题是,在对已经转换为文字的HTML代码执行搜索时,我不能排除任何包含"src = http://...."的部分,因为它在不同的网站中有所不同。这使得一些关键词变得无关紧要。

    在这种情况下,有没有办法排除以"src"开头的任何字词?或者还有其他任何关键字搜索方法可以解决这个问题吗?

1 个答案:

答案 0 :(得分:0)

我认为您的问题是步骤2,因为您尝试将HTML转换为文字,而requests.get(url).text会返回响应的HTML。

>>> import requests
>>> r = requests.get("http://example.com")
>>> r.text
u'<!doctype html>\n<html>\n<head>\n ..........'

您可以在BeautifulSoup中使用get_text来提取文字。

>>> from bs4 import BeautifulSoup
>>> s = BeautifulSoup(r.text)
>>>s.get_text().replace("\n","")
u'Example Domain ....."