我正在处理
的法律文件我想构建一个程序(使用SQL,R或Python),将一个文档与另外200个文档的库进行比较,并指出新文档与其他文档的不同之处。
到目前为止,我一直在使用包含每个子句及其子句号的文件(来自4-5个文档而不是200个),然后手动比较新文档。
这些问题是如何解决的?我不熟悉NLP,但我开始在R中查看tm包,看不出它对我有什么帮助。相似或不相似度量会给我一个平均表示,而我期待看哪些条款是标准的,与所有200个文档相比,以及不同/新的条款
答案 0 :(得分:1)
我对R一无所知,但我认为名为NLTK的Python包会有所帮助。一个简单的vector space similarity可以轻松解决您的问题。
对于200份文件,您甚至不需要数据库。您可以直接从光盘中读取这些文档。为了说清楚,我从你的描述中做了两个假设:
如果是这种情况,那么您可以分三步完成任务:
stop words
来过滤那些"和","或"和""。vector space