解析以<span>标签分隔的亚马逊评论

时间:2017-01-12 14:01:46

标签: python

我正在尝试从.csv文件中读取一些数据。数据的示例如下所示:

4.0 /gp/customer-reviews/RKMO449VT48H3?ASIN=1491590173  4.7573214851  Stars "<span class=""a-size-base review-text"">I'm a hard-science science  fiction fan ....  (Btw, I like those stories, too, but good ones are hard to find.)<br/><br/>Somebody did their homework on this one -- and that's what  stands out above all else.</span>"

如果我尝试读取这样的数据:

with open("Andy-Weir-The-Martian.csv", 'r') as csvfile:
 df_total = pd.read_csv(csvfile, sep=",")  

它会抛出以下错误:

  

文件&#34; pandas \ parser.pyx&#34;,第1865行,pandas.parser.raise_parser_error(pandas \ parser.c:23325)   pandas.io.common.CParserError:标记数据时出错。 C错误:第3行预计有32个字段,见35

有关将此数据读入python的最佳做法的想法吗?

1 个答案:

答案 0 :(得分:0)

这意味着文件CSV文件在第3行上具有不同的布局。您可以使用选项'error_bad_lines'忽略第3行。另外,我看不到您的示例数据中的逗号。它可能是一个标签?

 df_total = pd.read_csv(csvfile, sep=",", error_bad_lines=False)

请注意,当使用error_bad_lines = False时,将删除违规行。如果您不想忽略坏行,请调查第3行具有不同列数的原因