Question

我需要关注网站搜索的第一个结果。

我通过从.csv文件中提供我要查找的名称来打开网站，以便打开已执行搜索的网站。

def name_to_url(name):
    words = name.split(" ")
    url = "http://website/search/results?Name="
    end_of_url = "&Type=0&IncludeNlsp=True"
    for word in words:
        url += "%s+" % word
    url += "%s" % end_of_url

    return url

with open('file.csv', 'rb') as f:
    reader = csv.reader(f)
    for row in reader:
        open_page(name_to_url(row[0]))

我知道这可能不是最漂亮或最好的方法，但它现在已经足够好了。我主要关注的是如何关注搜索返回的链接。

让我们说这个名字将是＆＃34; Google＆＃34;并且搜索返回带有粗体绿色文本的链接，该文本显示为＆＃34; Google＆＃34;。我已经看过机械化，但我无法弄清楚如何去做，主要是因为网站上的例子使用了正则表达式

Answer 1

有多种方法可以提取链接并使用mechanize进行关注。可能对您有用的最简单的选项是使用索引来获取它：

browser.follow_link(nr=number)

或者，您可以使用browser.links()按url_regex或text_regex过滤掉链接。

另见：

Python mechanize, following link by url and what is the nr parameter?

Python - 使用mechanize来跟踪特定的链接

1 个答案: