这是我在stackoverflow上的第一篇文章。我最近加入了Coursera的数据科学课程。作为Coursera的学生,我必须标记一些作业,其中包括关于降价的问题。该任务要求每个人创建一个文本文件,可以在GitHub上的回购中查看。该文件必须格式化为辅助标题(##),其中包含以下内容“这是一个降价文件”。在大多数人的文件中,以下显示为“2行,27个字节”。
然而,在2个分配中,我看到了以下内容:'1行,n个字节'(n是各种字节)。我知道字节改变了,因为不是每个人都把'这是一个降价文件' - 有人省略了'a'等等但是为什么行数会改变?我检查了原始数据文件,它们都包含相同的内容。我是数据科学领域的新手(旧学校统计学背景),所以如果这是一个简单的答案,那么就要问道歉了。
答案 0 :(得分:0)
这几乎肯定与行结尾有关。
大多数人可能包含在第一行末尾结束的行。因此该文件包含第二个空行。一些用户没有添加行结尾(使用[enter]
或[return]
键)。因此,他们的文件包含一行。
通常,包含以纯文本文件的最后一行末尾结尾的行被认为是好的形式。实际上,许多文本编辑器会自动为您添加一个,这可能是大多数文件包含两行的原因。也就是说,任何体面的Markdown解析器都应该能够正确解析Markdown文件,而该文件缺少一条以最后一行结尾的行。
至于文件大小的差异(当没有拼写错误时),这也可能是由于行结尾。在Windows(DOS)上,系统默认使用两个(隐藏)字符来表示行结尾(通常表示为\r\n
)。而所有其他系统(Mac OS,Linux,Unix等)仅使用单个字符(\n
)。同样,任何体面的Markdown解析器都应该能够处理。但是,每个都给出了不同的字符数,因此文件大小不同。