应用错误收集

时间：2017-07-25 23:26:04

标签： python-2.7 nlp nltk text-mining

我构建了许多蜘蛛来获取来自不同网站的新闻文章，我有一个api将文本转换为音频剪辑，但我需要一个框架或python工具来优化文章的文本，如：

删除与源相关的任何内容。删除任何日期格式。删除网址。将首席执行官等首席执行官改为首席执行官例如。删除特殊字符和拼写错误。

确保在所有编辑后正确写入句子。使用以前编辑过的文章作为新文章的参考。

我正在使用python，nltk和re，但它令人筋疲力尽，每次我认为我覆盖了所有情况，我发现要添加的新案例，我认为我陷入无限循环。

有什么建议吗？

答案 0 :(得分：0)

首先，expanding acronyms to their full form是非平凡的，不应该被视为抓取的一部分，而是处理第二步的一部分（参见IBM's The Art of Tokenization）。

不幸的是，清理碎片数据很乏味：没有神奇的解决方案，因为每个人都有兴趣挖掘与您不同的东西 - 例如，有些人可能只对感兴趣的。不过，你有没有尝试使用BeautifulSoup？ - 它是一个Python库，它提供了一个非常好的API来处理许多常见的与刮擦相关的任务。