如何在列表中运行我的tokeniser函数-模块对象不可调用?

时间:2018-11-23 16:51:33

标签: python pandas list module token

任务:在下面的代码单元中,编写代码来运行NLTK_Tokenise和您自己的Tokenise函数,这些示例来自于路透社语料库的10个句子。

我已经编写了以下代码:

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

my_list = r_list

????
my_list=[i.split(tokenise) for i in my_list]
r_list=[i.split(nltk.tokenize) for i in r_list]    

pd.DataFrame(list(zip(my_list,r_list)),columns=["MINE","NLTK"])  

我还考虑了(从刚过去的“ ????”开始):

my_list = [i.split() for i in my_list]
r_list = [i.split() for i in r_list]

tok = tokenise(my_list)
cortok = nltk.tokenize(r_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])

现在我有2个具有相同语料库信息的列表,我想将我的函数应用于所述列表,尽管我无法找出任何允许我应用函数而不是字符串等的方式。我应该将我的tokenisers复制并粘贴为字符串,我敢肯定会有更好的方法。对于第二个选项,我怀疑是否需要2个单独的列表,并且可以标记一个列表并将其附加到新变量上。

如果有人帮助,可以取得进一步的进展:

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

new_list = [i.split()[0] for i in r_list]

tok = tokenise(new_list)
cortok = nltk.tokenize(new_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])  

我想做的是将列表分成不同的变量,然后制作一个大小为10(sample_size)的DataFrame。虽然我不知道如何将长度列表拆分为不同的变量,除非我独立地分别进行1,2,3,4,...,10的访问。

所以我取得了更大的进步,我意识到我将不得不使用map():

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

tok = map(tokenise,r_list)
cortok = map(nltk.tokenize,r_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])

尽管我的最后一行还是有问题。 TypeError:“模块”对象不可调用。我已经用谷歌搜索了,尽管仍然不能完全确定问题出在哪里。大熊猫已经进口了吗?

我现在意识到我有一个愚蠢的错误,我输入nltk.tokenize而不是word_tokenize。

1 个答案:

答案 0 :(得分:1)

使用map():

from nltk.tokenize import word_tokenize
import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

tok = map(tokenise,r_list)
cortok = map(word_tokenize,r_list)

pd.DataFrame(list(zip_longest(tok,cortok)),columns=["MINE", "NLTK"])