对于NLP来说,我是新手,因为我刚刚开始了解它。所以,如果问题看起来过于简单,请耐心等待:)
我有很多PDF文件(很多),任务是:每当有人在其中一个PDF中提出问题和答案时,要么提取包含答案的部分,要么显示该特定PDF的页码作为答案。您可以将每个PDF视为特定产品的手册;总共有数百个PDF文件。
我知道使用PDF搜索引擎可以轻松解决这个问题;但是,文本挖掘和AI / ML视角是否有任何可能解决问题的方法?我可以用几张PDF训练模型,它可以休息吗?
最近我一直在努力做一些研究,到目前为止我得到的是:每当有人问一个问题时,我都可以使用nltk python(在线提供大量资源)从问题中提取关键词。但真正困扰我的是下一部分,即pdf文本/信息发挥作用。
提前致谢:)
答案 0 :(得分:1)
如果我是你,我会从收集或创建培训机器所需的数据开始。
如:
1.客户查询包含以下关键字house
timber
nails
因此,您在文档中搜索这些关键字,然后向其发送house_timber.pdf
2.然后你会想得到反馈,知道你所做的是正确还是错误
比如要求客户给你结果反馈。
或者你可以自己完成它并自己训练前几百/千次。
然后我会将所有这些培训查询和结果存储在数据库中,这样每次新查询进入时,您都可以通过培训获得最准确的答案。
然后再次请求反馈并将新结果存储在数据库中。 (继续反馈循环!)
你可以通过运行测试自己训练一下。
与给出关键字一样,检查这些关键字是否存在于.pdf
中,然后根据结果将结果标记为yes [1]
或no [0]
。
我发现你训练的越多,它就越准确。只要您继续从反馈中训练它,您的结果将继续提高准确性。
我还发现,如果你给它太多的训练数据,并让它多次运行变化。结果没有太大改善,只需要更多时间。因此,尝试找到最佳点,适量的数据和适当数量的训练迭代也很重要。 (如果你想快速回复)。
开始使用机器学习来寻找模式是一个很酷的冒险。玩得开心!