我有25GB的TSV文件,并尝试使用命令导入它:
D:\sphinx\bin>indexer.exe -c D:\sphinx\sphinx.conf products --rotate
它工作了一段时间,但随后显示错误
ERROR: index 'products': source 'products_tsv': read error 'No error' (line=4595827, pos=908, docid=4595827).
但是在第4595827行的记录没有问题。 我有两个问题:
答案 0 :(得分:0)
在检查数据文件时花了很多时间,发现了很多隐藏的符号,例如 SYM (\U001A
), NULL (\0000
)以及其中的更多,这使斯芬克斯变得疯狂
简单地(如果«简单»可以说约25GB文件)将所有 SYM 替换为'并删除其他文件。
我们前进并面临另一个问题,但这是另一个question。
答案 1 :(得分:0)
尝试在.tsv
数据源中的最后一行之后添加额外的换行符,因此最后一行为空。就我而言,它有所帮助。感谢@stefobark及其存储库stefobark/index_tsv