从网站上找到公司的位置

时间:2017-07-11 15:39:01

标签: excel python-2.7 beautifulsoup urllib2

首先,感谢几天前我刚开始学习编码的帮助,所以感谢您的帮助!

所以基本上我有一个公司网址列表,想要找到它们所在的位置。我一直在想的是使用urllib2和BeautifulSoup来获取网址中的所有文本,然后搜索该文本以查找加利福尼亚州,马萨诸塞州,纽约州等,并将其打印出来,无论它找到哪一个我可以把文件放到excel中。到目前为止,我已经编写了下面的代码,它给了我一组文本,但我不知道如何搜索它,如何使用多个URL,或者如何将这些信息打印成Excel可读格式。

谢谢!

import urllib2
import re
from bs4 import BeautifulSoup


links = urllib2.urlopen('http://www.coolcomposites.com/')
html = links.read()
soup = BeautifulSoup(html, "html.parser")
locations = ["Boston", "MA"]
file_text = soup.get_text()
print (file_text)

1 个答案:

答案 0 :(得分:0)

您需要遍历locations列表并检查file_text中是否存在每个条目。

for loc in locations:
  if loc in file_text:
    print ("Found location")
  else:
    print ("Location not found")

提防

<强> 1。大写

坚持locations的一个表示。一切都是小写的,上面或上面然后是低等等。点是,不要混淆它,因为上面的实现不区分大小写MA != ma != Ma != mA

因此,您要为locations选择小写,并将file_text转换为小写。

<强> 2。中点检测

locations中,您添加了 MA 。这也将在 MA 关于其位置的任何文本中检测到。想一想克服这个问题的可能方法。