新的编码,甚至更新的iPython和Pandas。我在Pandas工作以解析.csv文件中的字符串,因此我将某些关键字隔离出来并将它们作为数组存储在新列中。我已经将解析器放在一起,但是我在找到一种方法来存储关键字(一旦它们与原始的.csv隔离)在一个新数组中。我已经尝试了df.replace和df.insert两个nether已经得到了我想要的结果。如果有一种方法可以将隔离的关键字变成可迭代的数据类型,那就太棒了。 有什么建议吗?
#abstract from .csv
from pandas import pd
for i in fam['Abstract']:
abstract = i
kwords = ['Smith', 'name', 'Brian']
import string
from collections import Counter
#changes abstract into dictionary of word counts
abstract_no_pnct = abstract.translate(None, string.punctuation)
abstract_as_list = abstract_no_pnct.split()
abstract_as_cntobj = Counter(abstract_as_list)
abstract_as_dict = dict(abstract_as_cntobj)
#prints word counts of keywords
pres_list = []
for kword in kwords:
if kword in abstract_as_dict:
pres_list.append(kword)
continue
#either append pres_list entries to corresponding list OR
#save pres_list to corresponding