我已经对文本文档的大型数据集进行了分类,例如在此scikit-learn example中。现在我想尝试创建一个像in this example这样的漂亮图表。
问题是我的数据是字符串,而该示例包含数字列表。我有没有办法制作一个类似的图表,也许是使用文档中单词外观的频率?
我的数据格式与first link中的20newsgroup数据类似。
答案 0 :(得分:0)
您只能在二维中进行散点图。对于文本数据,您通常拥有数十或数十万个功能。 我有时会做的是像in this notebook这样的大系数:
结果将是一个条形图,显示大系数的符号和幅度。