检查一个网站是否有多个单词之一 - 如果声明

时间:2017-06-29 00:41:40

标签: python list if-statement python-requests

我想查看一个网站是否至少包含多个单词中的一个。我只能找到一个字。当我尝试添加多个单词时,我收到错误。

 import requests

 url = 'https://www.python.org/'

 r = requests.get(url)
 html_content = r.text
 list = "Calculations" # This works
 # list = ("Calculations", "simple") # this would fail

 if list in html_content:
     print("word exist")
感谢所有帮助过的人。

2 个答案:

答案 0 :(得分:0)

解决问题的几种方法:

首先,您可以简单地遍历单词列表并逐个检查。但是,让我们选择更复杂的东西?

使用您从HTML获取的文本。删除标点,删除空格,小写所有内容和所有爵士乐,然后将单词列表转换为集合。我们称之为vocab_set。幸运的话,你也有自己的word_set,这是一个包含你想要在html文本中验证的单词的集合。此时您需要做的只是vocab_set & word_set类型,它会为您提供两个集合的交集,或者网页中存在的单词。

是的,我刚刚为最后一个班轮经历了所有麻烦。

答案 1 :(得分:0)

修改代码的直接方法是:

words = ("Calculations", "simple")

for word in words:
    if word in html_content:
        print("word exists")

这会一遍又一遍地搜索整个文本,更好地标记化并使用@CaptainMeow在答案中提到的集合交集。