我构建了许多蜘蛛来获取来自不同网站的新闻文章,我有一个api将文本转换为音频剪辑,但我需要一个框架或python工具来优化文章的文本,如:
删除与源相关的任何内容。删除任何日期格式。 删除网址。将首席执行官等首席执行官改为首席执行官 例如。删除特殊字符和拼写错误。
确保在所有编辑后正确写入句子。 使用以前编辑过的文章作为新文章的参考。
我正在使用python,nltk和re,但它令人筋疲力尽,每次我认为我覆盖了所有情况,我发现要添加的新案例,我认为我陷入无限循环。
有什么建议吗?
答案 0 :(得分:0)
首先,expanding acronyms to their full form是非平凡的,不应该被视为抓取的一部分,而是处理第二步的一部分(参见IBM's The Art of Tokenization)。
不幸的是,清理碎片数据很乏味:没有神奇的解决方案,因为每个人都有兴趣挖掘与您不同的东西 - 例如,有些人可能只对感兴趣的。不过,你有没有尝试使用BeautifulSoup? - 它是一个Python库,它提供了一个非常好的API来处理许多常见的与刮擦相关的任务。