如何优化文本数据?

时间:2017-07-25 23:26:04

标签: python-2.7 nlp nltk text-mining

我构建了许多蜘蛛来获取来自不同网站的新闻文章,我有一个api将文本转换为音频剪辑,但我需要一个框架或python工具来优化文章的文本,如:

  

删除与源相关的任何内容。删除任何日期格式。   删除网址。将首席执行官等首席执行官改为首席执行官   例如。删除特殊字符和拼写错误。

确保在所有编辑后正确写入句子。 使用以前编辑过的文章作为新文章的参考。

我正在使用python,nltk和re,但它令人筋疲力尽,每次我认为我覆盖了所有情况,我发现要添加的新案例,我认为我陷入无限循环。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

首先,expanding acronyms to their full form是非平凡的,不应该被视为抓取的一部分,而是处理第二步的一部分(参见IBM's The Art of Tokenization)。

不幸的是,清理碎片数据很乏味:没有神奇的解决方案,因为每个人都有兴趣挖掘与您不同的东西 - 例如,有些人可能只对感兴趣的。不过,你有没有尝试使用BeautifulSoup? - 它是一个Python库,它提供了一个非常好的API来处理许多常见的与刮擦相关的任务。