应用错误收集

Python：如何构建用于加载数据的文本文件？

时间：2017-09-25 05:38:19

标签： python machine-learning text-files jupyter-notebook data-analysis

我是Python的新手，我正在按照本指南实现线性回归 http://nbviewer.jupyter.org/github/jdwittenauer/ipython-notebooks/blob/master/notebooks/ml/ML-Exercise1.ipynb

基本上我正处于需要构建数据集以将其导入Python的步骤

我创建了一个包含两列的文本文件，每个数据都以一个标签分隔

但是，这就是我得到的

我在网上看了看，似乎标签是分隔符。我究竟做错了什么？如何构建此文本文件？

2 个答案:

答案 0 :(得分：1)

我建议使用官方文档而不是＆＃34;在线浏览＆＃34; - 如果查看pandas read_csv()文档，它会列出（在最顶部）每个参数的默认值。 sep（separator）参数的默认值为＆＃34;，＆＃34;。因此，只需将您的通话更改为pd.read_csv()即可添加sep='\t'。

答案 1 :(得分：1)

使用＆＃39;，＆＃39;而不是＆＃39; tab＆＃39;作为文本文件ex1data.txt中的分隔符，因为pandas默认分隔符为＆＃39;，＆＃39;。

以下是pandas官方文档中分隔符的解释：

sep：str，默认'，' 分隔符使用。如果sep为None，则为C引擎无法自动检测分隔符，但Python解析引擎可以，意味着后者将自动使用。在此外，分隔符长于1个字符且不同于＆＃39; \ s +＆＃39; 将被解释为正则表达式，并将强制使用 Python解析引擎。请注意，正则表达式分隔符很容易忽略引用的数据。正则表达式示例：＆＃39; \ r \ t＆＃39;