如何解决文本可视化问题?

时间:2019-01-20 20:02:09

标签: python matplotlib data-visualization

我必须可视化文本中单词的频率,但是无法设置散点图和n-gram频率分布图。

我已经在网络上尝试了很多代码,但是代码中的字数计数器始终存在问题

这是我的代码:

T = int

我的第一个问题是:您能告诉我一种如何从中获得散点图的方法,仅显示文本中单词的频率。与n克频率分布图相同。它应该只可视化单词频率。可视化本身的外观并不重要。该图不应保存在任何地方。执行代码后,图应立即出现。作为错误,它向我展示了总是与这部分代码相关联:

from urllib import request
from collections import Counter
from nltk import word_tokenize
import matplotlib.pyplot as plt
from yellowbrick.text import DispersionPlot
from wordcloud import WordCloud
import numpy as np

URL = 'http://www.gutenberg.org/cache/epub/24681/pg24681.txt'

RESPONSE = request.urlopen(URL)
RAW = RESPONSE.read().decode('utf8')

for char in '-.,\n;:?=)(/&%$§"!)12345678':
   RAW = RAW.replace(char, ' ')

type(RAW)
print('\n')
len(RAW)

TOKENS = word_tokenize(RAW)

print(type(TOKENS))
X = print(len(TOKENS))
print(TOKENS[:X])

print('\n')

C = Counter(TOKENS)
print(C.most_common(100))

还有第二个问题,如果我创建像这样的直方图,停用词不起作用,为什么?表示输出首先显示“ the”,“ of”,“ a”等。代码如下:

C = Counter(TOKENS)
print(C.most_common(100))

如果您有任何疑问,请告诉我。我已经尝试了很多东西。他们做得不太好。

感谢您的帮助

预期结果应为散点图和n-gram频率分布图的工作代码,以及直方图,散点图和n-gram频率分布图的工作停用词。

0 个答案:

没有答案