我想列出NLTK为Dracula.txt报告的搭配。我该怎么做呢?通过将其添加到我的语料库中,我能够找到单词频率。我还有一个变量DracWords dracWords = mycorpus.words('Dracula.txt')
,其中包含Dracula文本中的单词。从这里我可以做频率分布,但我现在想要的是列出它的搭配。
感谢任何帮助。
答案 0 :(得分:1)
你可以试试这个:
callback
你会得到:
from collections import Counter
text = 'List the collocations for a txt file'
words = text.split()
nextword = iter(words)
next(nextword)
print(Counter(zip(words, nextword)))
希望这有帮助。
答案 1 :(得分:0)
谢谢大家。能够得到它
#!/bin/sh,for,line,in,$(cat,columns.txt),do,IFS='=,',read,-r,-a,array,<<<,$line,echo,"${array[0]}",echo,"${array[1]}",echo,"${array[2]}",echo,"${array[3]}",echo,`date,+%Y%m%d`,echo,"connecting,data,base,-,hive",db_name="dev_sri_open",ods="${array[0]}",country="${array[1]}",table="${array[2]}",columns="${array[3]}",export,db_name,export,ods,export,country,export,table,export,columns,hive,-hiveconf,database_name=$db_name,-hiveconf,run_date=`date,+%Y%m%d`,-hiveconf,table_name=$table,-hiveconf,country_name=$country,-hiveconf,order_date=$ods,,-hiveconf,column_names=$columns,-f,,'select.hql',>,/home/ecmappdev/extraction/${array[2]}.dat,done