Question

我必须可视化文本中单词的频率，但是无法设置散点图和n-gram频率分布图。

我已经在网络上尝试了很多代码，但是代码中的字数计数器始终存在问题

这是我的代码：

T = int

我的第一个问题是：您能告诉我一种如何从中获得散点图的方法，仅显示文本中单词的频率。与n克频率分布图相同。它应该只可视化单词频率。可视化本身的外观并不重要。该图不应保存在任何地方。执行代码后，图应立即出现。作为错误，它向我展示了总是与这部分代码相关联：

from urllib import request
from collections import Counter
from nltk import word_tokenize
import matplotlib.pyplot as plt
from yellowbrick.text import DispersionPlot
from wordcloud import WordCloud
import numpy as np

URL = 'http://www.gutenberg.org/cache/epub/24681/pg24681.txt'

RESPONSE = request.urlopen(URL)
RAW = RESPONSE.read().decode('utf8')

for char in '-.,\n;:?=)(/&%$§"!)12345678':
   RAW = RAW.replace(char, ' ')

type(RAW)
print('\n')
len(RAW)

TOKENS = word_tokenize(RAW)

print(type(TOKENS))
X = print(len(TOKENS))
print(TOKENS[:X])

print('\n')

C = Counter(TOKENS)
print(C.most_common(100))

还有第二个问题，如果我创建像这样的直方图，停用词不起作用，为什么？表示输出首先显示“ the”，“ of”，“ a”等。代码如下：

C = Counter(TOKENS)
print(C.most_common(100))

如果您有任何疑问，请告诉我。我已经尝试了很多东西。他们做得不太好。

感谢您的帮助

预期结果应为散点图和n-gram频率分布图的工作代码，以及直方图，散点图和n-gram频率分布图的工作停用词。

如何解决文本可视化问题？

0 个答案: