我正在使用一个处理简历的WEB应用程序,我需要提取姓名。
所以我创建了一个使用Tika返回pdf文本的函数
from tika import parser
def get_text(path):
content = parser.from_file(path)
return content['content']
另一个检索名称的功能
import nltk
from nltk.corpus import stopwords
import enchant
def extract_name(document):
names = []
d = enchant.Dict("en_US")
sentences = tokenize(document)
for sentence in sentences:
for s in sentence:
if not d.check(s[0]):
names.append(s[0])
return " ".join(names[:2])
print(extract_name(get_text("CV-Fabien_Boutantin_fr_2005.pdf")))
print(extract_name(get_text("My_CV.pdf")))
第一次测试成功,我得到以下输出结果
BOUTANTIN BOUTANTIN
但是对于我的简历却无法正常工作,我得到了:
2mm穆罕默德胺2mm
在我的乳胶中,我有这个:
\firstname{\vspace{2mm}Mohamed Amine\vspace{2mm}}
\lastname{MESSAOUDI}
我想Tika在阅读乳胶pdf时有问题