我对数据科学和R还是很陌生,但是我的工作要求我处理一些非常大,非常混乱的数据集,而这些数据集几乎没有结构。我目前正在使用美国货运文本文件(大约48,000个字符,13,341行和1列),其中包含诸如FIPS代码,称重站识别号,卡车重量等信息,并且数据的格式采用以下方式:
间距不是分隔符,实际上什么也不是。
S02000101 11171R1T13 00 13 00 2PLP001700000000 8196762351650150252360 9100170Y170000008007Y3000000030公园公路在丘利塔纳-NB
为进一步说明数据本身,对字符进行了编码以标识特定的内容,例如,S表示记录类型,02是FIPS代码,阿拉斯加的000101是站台标识代码。
我真的不知道从何处获取此数据集,并通过添加新列来分隔记录类型,FIPS代码,站点标识代码等来清理它。建议?