我必须可视化文本中单词的频率,但是无法设置散点图和n-gram频率分布图。
我已经在网络上尝试了很多代码,但是代码中的字数计数器始终存在问题
这是我的代码:
T = int
我的第一个问题是:您能告诉我一种如何从中获得散点图的方法,仅显示文本中单词的频率。与n克频率分布图相同。它应该只可视化单词频率。可视化本身的外观并不重要。该图不应保存在任何地方。执行代码后,图应立即出现。作为错误,它向我展示了总是与这部分代码相关联:
from urllib import request
from collections import Counter
from nltk import word_tokenize
import matplotlib.pyplot as plt
from yellowbrick.text import DispersionPlot
from wordcloud import WordCloud
import numpy as np
URL = 'http://www.gutenberg.org/cache/epub/24681/pg24681.txt'
RESPONSE = request.urlopen(URL)
RAW = RESPONSE.read().decode('utf8')
for char in '-.,\n;:?=)(/&%$§"!)12345678':
RAW = RAW.replace(char, ' ')
type(RAW)
print('\n')
len(RAW)
TOKENS = word_tokenize(RAW)
print(type(TOKENS))
X = print(len(TOKENS))
print(TOKENS[:X])
print('\n')
C = Counter(TOKENS)
print(C.most_common(100))
还有第二个问题,如果我创建像这样的直方图,停用词不起作用,为什么?表示输出首先显示“ the”,“ of”,“ a”等。代码如下:
C = Counter(TOKENS)
print(C.most_common(100))
如果您有任何疑问,请告诉我。我已经尝试了很多东西。他们做得不太好。
感谢您的帮助
预期结果应为散点图和n-gram频率分布图的工作代码,以及直方图,散点图和n-gram频率分布图的工作停用词。