我正在尝试使用古腾堡计划的书来创建Python wordcloud。
如果我选择Jule Verne的书A Journey to the Centre of the Earth并下载了纯文本UTF-8文件,则当我使用read_csv时,我会从熊猫中收到错误消息。
这是我正在使用的代码:
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('pg18857.txt',delimiter=' ')
我收到以下错误消息:
pandas.errors.ParserError:标记数据时出错。 C错误:预期为14 176行中的字段,看到了15
我在pd.read_csv中尝试了几个选项,但是我无法解析文本。
答案 0 :(得分:1)
Pandas专为结构化数据而设计。这意味着将东西组织成行和列,例如电子表格或矩阵。可以尝试一个文本文件,但是松散的文本太混乱了,熊猫无法解析。
您可能想要做的是将其拆分为一个句子列表,然后将该列表提供给熊猫。
这是一个简单的例子:
with open('pg18857.txt') as f:
content = f.readlines()
# Remove whitespace characters like `\n` at the end of each line
content = [x.strip() for x in content]
df = pd.DataFrame(content)