Question

首先，感谢几天前我刚开始学习编码的帮助，所以感谢您的帮助！

所以基本上我有一个公司网址列表，想要找到它们所在的位置。我一直在想的是使用urllib2和BeautifulSoup来获取网址中的所有文本，然后搜索该文本以查找加利福尼亚州，马萨诸塞州，纽约州等，并将其打印出来，无论它找到哪一个我可以把文件放到excel中。到目前为止，我已经编写了下面的代码，它给了我一组文本，但我不知道如何搜索它，如何使用多个URL，或者如何将这些信息打印成Excel可读格式。

谢谢！

import urllib2
import re
from bs4 import BeautifulSoup


links = urllib2.urlopen('http://www.coolcomposites.com/')
html = links.read()
soup = BeautifulSoup(html, "html.parser")
locations = ["Boston", "MA"]
file_text = soup.get_text()
print (file_text)

Answer 1

您需要遍历locations列表并检查file_text中是否存在每个条目。

for loc in locations:
  if loc in file_text:
    print ("Found location")
  else:
    print ("Location not found")

提防

<强> 1。大写

坚持locations的一个表示。一切都是小写的，上面或上面然后是低等等。点是，不要混淆它，因为上面的实现不区分大小写MA != ma != Ma != mA。

因此，您要为locations选择小写，并将file_text转换为小写。

<强> 2。中点检测

在locations中，您添加了 MA 。这也将在 MA 关于其位置的任何文本中检测到。想一想克服这个问题的可能方法。

从网站上找到公司的位置

1 个答案: