我想使用Python的TextTiling将一组文本(研究论文)分成不同的部分。但是,我发现虽然TextTiling对某些文本工作正常,但它总是报告其他一些文本的错误:
params
即使文本来自不同的来源并由不同的研究人员进行预处理,我也不认为它们的长度和格式根本不同。
我怀疑这个问题可能来自陷入困境的文本中的换行符,并在每个段落后再添加两个回车符。这一次,TextTiling可以工作,但结果并不令人满意,因为它几乎将文本拆分为原始段落。
我的问题:为什么会这样?为什么TextTiling报告两组似乎没有不同的文本的处理结果不同?