有没有办法判断哪篇文章是自然的?

时间:2017-02-19 04:38:34

标签: nlp

在设计搜索引擎时,我认为我们需要一种可以区分垃圾和普通文档的算法。否则,垃圾文档可能会出现在搜索结果的顶部,搜索结果的质量可能不佳。

这可能是一个含糊不清的问题,但有没有办法判断哪篇文章是自然的?像Lorem Ipsum这样的文章绝对不自然。而且,写出从人类着作中随机抽取的单词是不自然的。 (例如,它也写了,但它可能是。)

1 个答案:

答案 0 :(得分:1)

没有一定和准确的方法来过滤自然和非自然的文章。但是,如果你有一个像谷歌那样的大数据仓库,可能会有这样的想法。谷歌已经在努力使项目最大化 天然物品的相关搜索模式。

查看以下链接,可以在一定程度上解决您的问题 https://www.ieee.org/publications_standards/publications/rights/ID_Plagiarism.html 这篇研究论文也可能有所帮助 http://trec.nist.gov/pubs/trec16/papers/ursinus.legal.final.pdf 希望这会有所帮助......