有关添加开始/结束句子标记的初学者建议:使用Quanteda功能与手动完成(自定义代码)

时间:2018-08-01 07:18:29

标签: regex nlp quanteda text2vec

我需要在我使用Quanteda分析的某些文本中添加开始和结束句子标记。
我想使用Quanteda添加这些标记,但是我看不到“开箱即用”的明确方法。
在寻找答案时,我发现了有关Quanteda和这些标记here的另一个问题。关于标记here的另一个问题使我猜想该任务是“手动”完成的。

这是询问当前使用Quanteda添加此类标记的最佳方法是什么,与在自定义代码中进行比较相比,它将具有哪些优点(“ NLP智能”?)和缺点(较低的速度,内存)。

我对一般性回答最感兴趣,欢迎提供有关我案情的任何其他建议,它们是:

  • 文本大小:非常大,例如,当尝试将文本分割为句子时,Quanteda在2-3小时后仍在运行,我总是不得不终止会话。

  • 我想使用Quanteda,但不惜一切代价,我很乐意使用R,Python,Java和正则表达式进行编码,如果使用其他非大型 >软件包带来了相关的优势,我在学习和使用它们完成此任务方面没有问题(text2vec?)。


    输入和所需输出的样本。
    使用“ sss”和“ eee”作为开始和结束句子标记:
    输入
    CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC). Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992. MMWR Morb Mortal Wkly Rep 1992; 18: 129-31.
    所需的输出
    sss CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC) eee sss Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992 eee sss MMWR Morb Mortal Wkly Rep 1992; 18: 129-31 eee

0 个答案:

没有答案