Question

我正在尝试使用古腾堡计划的书来创建Python wordcloud。

如果我选择Jule Verne的书A Journey to the Centre of the Earth并下载了纯文本UTF-8文件，则当我使用read_csv时，我会从熊猫中收到错误消息。

这是我正在使用的代码：

from wordcloud import WordCloud, STOPWORDS 
import matplotlib.pyplot as plt 
import pandas as pd 

df = pd.read_csv('pg18857.txt',delimiter=' ')

我收到以下错误消息：

pandas.errors.ParserError：标记数据时出错。 C错误：预期为14 176行中的字段，看到了15

我在pd.read_csv中尝试了几个选项，但是我无法解析文本。

Answer 1

Pandas专为结构化数据而设计。这意味着将东西组织成行和列，例如电子表格或矩阵。可以尝试一个文本文件，但是松散的文本太混乱了，熊猫无法解析。

您可能想要做的是将其拆分为一个句子列表，然后将该列表提供给熊猫。

这是一个简单的例子：

with open('pg18857.txt') as f:
    content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content] 
df = pd.DataFrame(content)

熊猫read_csv错误标记了古腾堡项目中的文本

1 个答案: