nlp - 使用多个文本文件训练Stanford POS标记 - Thinbug

使用多个文本文件训练Stanford POS标记

时间：2017-02-28 15:50:03

标签： nlp stanford-nlp part-of-speech

我有大约20000个文本文件的语料库，我想使用这些文本文件训练标记器，这更好，将这些文本文件分组到一个文本文件中（我不知道它是否会影响标记是否准确）或将所有这些文本文件包含在道具文件中？

1 个答案:

答案 0 :(得分：1)

我认为这不重要。代码应该只是加载所有数据，只是为了方便你将它分成多个文件。此外，您可以为不同的文件指定不同的输入格式，但这不会影响最终模型。