我需要在我使用Quanteda分析的某些文本中添加开始和结束句子标记。
我想使用Quanteda添加这些标记,但是我看不到“开箱即用”的明确方法。
在寻找答案时,我发现了有关Quanteda和这些标记here的另一个问题。关于标记here的另一个问题使我猜想该任务是“手动”完成的。
这是询问当前使用Quanteda添加此类标记的最佳方法是什么,与在自定义代码中进行比较相比,它将具有哪些优点(“ NLP智能”?)和缺点(较低的速度,内存)。
我对一般性回答最感兴趣,欢迎提供有关我案情的任何其他建议,它们是:
文本大小:非常大,例如,当尝试将文本分割为句子时,Quanteda在2-3小时后仍在运行,我总是不得不终止会话。
我想使用Quanteda,但不惜一切代价,我很乐意使用R,Python,Java和正则表达式进行编码,如果使用其他非大型 >软件包带来了相关的优势,我在学习和使用它们完成此任务方面没有问题(text2vec?)。
CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC). Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992. MMWR Morb Mortal Wkly Rep 1992; 18: 129-31.
sss CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC) eee sss Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992 eee sss MMWR Morb Mortal Wkly Rep 1992; 18: 129-31 eee