下面的代码。
我在做什么:我有一个关键字列表。我需要确定这些关键字是否出现在任何给定的网页(我输入的网页)上。我遇到的问题是超过两个字的关键字。例如,如果您查看下面的结果,您将看到“ Star”和“ Wars”没有出现在列表中。 “星球大战”是我的关键字列表中的一个短语,我需要将结果显示为“星球大战”,而不是两个单独的项目。目前,我已将bs4中的文本转换为字符串,然后转换为列表,我知道这是不正确的,因为它基于“”进行分隔,默认情况下,该文本将拆分我要搜索的短语。有没有一种方法可以直接在字符串中搜索导入列表中存在的短语?
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re
import pandas as pd
#Wikipedia Adress here
site= "website.html"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = Request(site,headers=hdr)
page = urlopen(req)
soup = BeautifulSoup(page,'lxml')
#Company Website Here
site = "website.html"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = Request(site,headers=hdr)
page = urlopen(req)
soup2 = BeautifulSoup(page,'lxml')
#Extracts text from soup and saves as souptext variable
gettext = soup.get_text()
gettext2 = soup2.get_text()
#converts to string
souptext = str(gettext)
souptext2 = str(gettext2)
#converts to list
split = souptext.split(' ')
split2 = souptext2.split(' ')
#combines both splits to one single list
combined = split + split2
#combines both strings to one string
combinedstr = souptext.lower() + souptext2.lower()
#Imports Excel File containing keywords
df = pd.read_csv('Movies.csv')
#Extracts desired column variables as keywords
mylist = df['Titles'].tolist()
liststr = str(mylist)
intersection = [i for i in mylist if i in combined]
results = list()
results.append(intersection)
print(results)
[['Avatar', 'Goodfellas', 'Saw', 'Crash', 'Gladiator', 'Scarface']]
已请求输入,因此这是我会看到的网页文本的示例(为字符串):
电影迷们已经逐渐远离诸如《星球大战》和《星际迷航》等怀旧电影。新一代更喜欢具有现代特效和CGI的电影,例如Avatar。
在这种情况下,“星球大战”和“星际迷航”将是mylist中的关键字。但是,它们不会显示在结果中,因为它们是两个单词的变量。
当前,我已将代码设置为将html文本字符串拆分为一个列表。这适用于单个标题的电影,但不适用于包含多个单词的电影。这是我要在这里解决的主要问题。我知道拆分字符串将不允许我将标题与多个单词相交。
答案 0 :(得分:0)
使用正则表达式,您想要实现的目标应该很简单。
import re
import requests
movie_list = ["batman","star wars", "star treck", "Blade Runner 2049"]
url = "https://www.imdb.com/list/ls062017175/"
response = requests.get(url)
html = response.text
movies_in_page = []
for movie in movie_list:
if len(re.findall(r"\b{}\b".format(movie),html, flags=re.I|re.M) ) >0:
movies_in_page.append(movie)
print()
print("{} Movies found in page: {}".format(len(movies_in_page),movies_in_page))
输出
>>> 3 Movies found in page: ['batman', 'star wars', 'Blade Runner 2049']
答案 1 :(得分:-1)
我是否可以直接在字符串中搜索导入列表中存在的短语?
是的,请使用in
运算符。
>>> ' bar ' in 'foo bar baz'
True
您会注意到,在这里我在搜索项周围放置了空格以防止出现此类问题:
>>> 'bar' in 'the barren wasteland'
True
在文本的开头和结尾,您仍然会遇到单词问题。您可以在文本上添加空格来解决此问题,也可以开始寻找正则表达式。