列出txt文件的并置

时间:2017-01-24 06:56:43

标签: python nlp collocation

我想列出NLTK为Dracula.txt报告的搭配。我该怎么做呢?通过将其添加到我的语料库中,我能够找到单词频率。我还有一个变量DracWords dracWords = mycorpus.words('Dracula.txt'),其中包含Dracula文本中的单词。从这里我可以做频率分布,但我现在想要的是列出它的搭配。

感谢任何帮助。

2 个答案:

答案 0 :(得分:1)

你可以试试这个:

callback

你会得到:

from collections import Counter

text = 'List the collocations for a txt file'
words = text.split()
nextword = iter(words)
next(nextword)

print(Counter(zip(words, nextword)))

希望这有帮助。

答案 1 :(得分:0)

谢谢大家。能够得到它

#!/bin/sh,for,line,in,$(cat,columns.txt),do,IFS='=,',read,-r,-a,array,<<<,$line,echo,"${array[0]}",echo,"${array[1]}",echo,"${array[2]}",echo,"${array[3]}",echo,`date,+%Y%m%d`,echo,"connecting,data,base,-,hive",db_name="dev_sri_open",ods="${array[0]}",country="${array[1]}",table="${array[2]}",columns="${array[3]}",export,db_name,export,ods,export,country,export,table,export,columns,hive,-hiveconf,database_name=$db_name,-hiveconf,run_date=`date,+%Y%m%d`,-hiveconf,table_name=$table,-hiveconf,country_name=$country,-hiveconf,order_date=$ods,,-hiveconf,column_names=$columns,-f,,'select.hql',>,/home/ecmappdev/extraction/${array[2]}.dat,done