我正在使用python来获取维基页面的主要类别,不断选择类别列表中的第一个。但是,当我编写python代码来进行递归时,它会继续返回我解析的第一个参数,即使我尝试在方法中更改它。
import csv
from bs4 import BeautifulSoup
import urllib.request
string_set=[]
def get_first_category(url):
k=urllib.request.urlopen(url)
soup=BeautifulSoup(k)
s=soup.find_all('a')
for i in s:
string_set.append(i.string)
for i in range(-len(string_set), 0):
if string_set[i] == ("Categories"):
return (string_set[i + 1])
def join_with(k):
return k.replace(" ","_")
def get_category_page(k):
p=["https://en.wikipedia.org/wiki/Category:",k]
return "".join(p)
def return_link(url):
return get_category_page(join_with(get_first_category(url)))
file=open("Categories.csv")
categories=csv.reader(file)
categories=zip(*categories)
def find_category(url):
k=get_first_category(url)
for i in categories:
if k in i:
return [True,i[0]]
return [False,k]
def main(url):
if find_category(url)[0]:
return find_category(url)[1]
else:
print(find_category(url)[1])
return main(return_link(url))
print (main('https://en.wikipedia.org/wiki/Category:International_charities'))
共享类别csv: Categories.csv
理想情况下,main方法应该继续使用第一个类别链接,直到它遇到categories.csv中的某些内容,但它只是继续处理我解析的链接。
答案 0 :(得分:0)
def main(url):
if find_category(url)[0]:
return find_category(url)[1]
else:
print(find_category(url)[1])
return main(return_link(url))
在这里,您调用应该返回新网址的find_category
函数,然后打印它,然后再次使用原始main
调用url
。您不会根据url
的返回值更改find_category
的值。所以它不断重演。