首先,感谢几天前我刚开始学习编码的帮助,所以感谢您的帮助!
所以基本上我有一个公司网址列表,想要找到它们所在的位置。我一直在想的是使用urllib2和BeautifulSoup来获取网址中的所有文本,然后搜索该文本以查找加利福尼亚州,马萨诸塞州,纽约州等,并将其打印出来,无论它找到哪一个我可以把文件放到excel中。到目前为止,我已经编写了下面的代码,它给了我一组文本,但我不知道如何搜索它,如何使用多个URL,或者如何将这些信息打印成Excel可读格式。
谢谢!
import urllib2
import re
from bs4 import BeautifulSoup
links = urllib2.urlopen('http://www.coolcomposites.com/')
html = links.read()
soup = BeautifulSoup(html, "html.parser")
locations = ["Boston", "MA"]
file_text = soup.get_text()
print (file_text)
答案 0 :(得分:0)
您需要遍历locations
列表并检查file_text
中是否存在每个条目。
for loc in locations:
if loc in file_text:
print ("Found location")
else:
print ("Location not found")
提防
<强> 1。大写强>
坚持locations
的一个表示。一切都是小写的,上面或上面然后是低等等。点是,不要混淆它,因为上面的实现不区分大小写MA != ma != Ma != mA
。
因此,您要为locations
选择小写,并将file_text
转换为小写。
<强> 2。中点检测
在locations
中,您添加了 MA 。这也将在 MA 关于其位置的任何文本中检测到。想一想克服这个问题的可能方法。