tokenizing和pos_tagging文本文件错误

时间:2018-05-13 10:59:35

标签: python

我正在试图弄清楚如何从文本文件中读取和标记。我有大约2500个文件需要阅读和标记,但是当我测试下面的代码时,它会出现以下错误:TypeError: expected string or bytes-like object

据我所知,txt文件只是一个普通文件。可以查看here。任何指针将不胜感激。

# Using a pre-trained POS tagger to tag a sentence.
import nltk
import numpy
POS_TAGGER = 'taggers/maxent_treebank_pos_tagger/english.pickle'
from nltk.tokenize import word_tokenize # doctest: +SKIP
from pathlib import Path

news_dir = Path("C:\\Users\\black\\Desktop\\Uni Work\\2018\\Text Mining\\Assignment 2\\Datasets\\CCAT\\")
news_file = (news_dir / "2287newsML.txt")


tagger = nltk.tag.load(POS_TAGGER)
with open(news_file) as f:
    print(tagger.tag(word_tokenize(f)))

此外,任何有关如何自动读取目录中2500个文件的指导/方向都会有所帮助。 :)

谢谢!

0 个答案:

没有答案