我有一个pandas数据框,其中包含一些具有约400万条记录的论文的详细信息。我需要找到此数据集中出版物数量最多的前50名作者。我有两个包含此数据的文件,因此我必须将它们都读入数据帧并将它们附加在一起以使用单个数据帧。我只使用了数据框中的author列,因为不需要其他32列。
到目前为止,我已经提出了以下解决方案。另外,这是算法分配,因此我不能使用任何内置算法。目前,我正在使用词典来存储每个作者的发表数量,然后遍历字典以获取发表最多的作者。另外,同一行中可以有多个作者,例如'Auth 1 |验证2 |验证3 |'这就是为什么我要分割字符串的原因。
我想知道是否有更快的方法来完成所有这些工作。有什么方法可以在数据帧循环期间找到最大值?同样,我不允许使用内置算法进行搜索或排序。任何建议都会有所帮助。
谢谢。
start_time = ti.default_timer()
only_authors_article = pd.DataFrame(articles['author'])
only_authors_inproceedings = pd.DataFrame(proceedings['author'])
all_authors = only_authors_article.append(only_authors_inproceedings, ignore_index = True)
all_authors = all_authors.dropna(how = 'any')
auth_dict = defaultdict(int)
for auth_list in zip(all_authors['author']):
auth_list = auth_list[0]
if '|' in auth_list:
auths = auth_list.split('|')
for auth in auths:
auth_dict[auth] += 1
else:
auth_dict[auth_list] += 1
most_pub_authors = []
for i in range(0, 50):
max_pub_count = 0
max_pub_auth = None
for author, pub_count in auth_dict.items():
if pub_count > max_pub_count:
max_pub_count = pub_count
max_pub_auth = author
most_pub_authors.append( (max_pub_auth, max_pub_count) )
del auth_dict[max_pub_auth]
print(most_pub_authors)
elapsed_time = ti.default_timer() - start_time
print("Total time taken: " + str(elapsed_time))
编辑1:来自all_authors的一些示例数据
author
0 Sanjeev Saxena
1 Hans Ulrich Simon
2 Nathan Goodman|Oded Shmueli
3 Norbert Blum
4 Arnold Schönhage
5 Juha Honkala
6 Christian Lengauer|Chua-Huang Huang
7 Alain Finkel|Annie Choquet
8 Joachim Biskup
9 George Rahonis|Symeon Bozapalidis|Zoltán Fülöp...
10 Alex Kondratyev|Maciej Koutny|Victor Khomenko|...
11 Wim H. Hesselink
12 Christian Ronse
13 Carol Critchlow|Prakash Panangaden
14 Fatemeh Ghassemi|Ramtin Khosravi|Rosa Abbasi
15 Robin Milner
16 John Darlington
17 Giuseppe Serazzi|M. Italiani|Maria Calzarossa
18 Vincent Vajnovszki
19 Christian Stahl|Richard Müller 0001|Walter Vogler
20 Luc Devroye
21 K. C. Tan|T. C. Hu
22 William R. Franta
23 Ekkart Kindler
24 Demetres D. Kouvatsos
25 Christian Lengauer|Sergei Gorlatch
26 Roland Meyer
27 Stefan Reisch
28 Erzsébet Csuhaj-Varjú|Victor Mitrana
29 Lila Kari|Manasi S. Kulkarni
答案 0 :(得分:1)
auth_dict = defaultdict(int)
for auth_list in zip(all_authors['author']):
auth_list = auth_list[0]
if '|' in auth_list:
auths = auth_list.split('|')
for auth in auths:
auth_dict[auth] += 1
else:
auth_dict[auth_list] += 1
是一种复杂的书写方式
auth_dict = defaultdict(int)
for auth_list in all_authors['author']:
for auth in auth_list.split('|'):
auth_dict[auth] += 1
这可能会更快:
Counter(itertools.chain.from_iterable(
auth_list.split('|') for auth_list in all_authors['author']))
其中itertools
是import itertools
,而Counter
是from collections import Counter
。
most_pub_authors = []
for i in range(0, 50):
max_pub_count = 0
max_pub_auth = None
for author, pub_count in auth_dict.items():
if pub_count > max_pub_count:
max_pub_count = pub_count
max_pub_auth = author
most_pub_authors.append( (max_pub_auth, max_pub_count) )
del auth_dict[max_pub_auth]
print(most_pub_authors)
遍历整个字典很多次。尝试一遍:
most_pub_authors = heapq.nlargest(50, auth_dict.items(), key=itemgetter(1))
其中itemgetter
是from operator import itemgetter
。
答案 1 :(得分:1)
问题出在这部分:
for i in range(0, 50):
. . .
for author, pub_count in auth_dict.items():
. . .
整个数据集重复50次。
相反,您可以使用累加器方法:拥有前50名作者的列表,最初由前50名作者填充,然后对auth_dict
进行一次迭代,如果找到的是最低值,则替换最低的元素更高。
类似这样的东西:
top_authors = []
lowest_pub_count = 0
top_n = 50
for author, pub_count in auth_dict.items():
if pub_count > lowest_pub_count: # found element that is larger than the smallest in top-N so far
if len(top_authors) < top_n: # not reached N yet - just append to the list
top_authors.append([author, pub_count])
if len(top_authors) < top_n: # keep lowest_pub_count at 0 until N is reached
continue
else: # replace the lowest element with the found one
for i in range(len(top_authors)):
if top_authors[i][1] == lowest_pub_count:
top_authors[i] = [author, pub_count]
break
lowest_pub_count = pub_count
for i in range(len(top_authors)): # find the new lowest element
if top_authors[i][1] < lowest_pub_count:
lowest_pub_count = top_authors[i][1]
对前50个元素中最低的元素的顺序搜索因不经常进行而被摊销。