我有一大堆基于文本的文档(100,000+),我想从中提取专有名称(例如一个人的名字)。
任何人都可以推荐有助于实现此目标的技术和/或软件。我对低级文本解析并不特别感兴趣,因为我处于更高层次的事情中,例如识别和/或排名。
答案 0 :(得分:4)
答案 1 :(得分:1)
如果没有某种形式的Natural Language Processing,这样的事情就无法可靠地完成。一些常见问题:
也是常用词的名称:John Black
多种语言和同一词的各种形式。
引用不同内容的名称。 Lily
可以是一个人,一个地方,一只猫或只是花的名字。
NLP可以使用周围的语法结构来区分其中一些案例。
那就是说,你可以尝试的一种简单(和天真)技术就是使用单词的大写。如果你在一个句子中间看到一个大写的起始字母,它通常是某种名称。
您可以合理地假设任何此类单词在同一文档中引用相同的内容。序列中的两个这样的单词可能是姓名/姓氏组合等。
如果文件中的大写不能被信任,您可能可以信任一个正确的单词表,而不是为了获得适用语言的专有名称列表。
答案 2 :(得分:0)
或许你最好的选择是将每个单词与专有词典进行比较。
答案 3 :(得分:0)
如果您列出了所有唯一单词,然后删除了字典中的所有单词,该怎么办?