在Word中搜索新闻文章数据和格式化结果

时间:2015-01-11 15:54:12

标签: python ms-word web-scraping

对于文章网址列表,我需要删除文章的标题,作者,日期,出版物和正文。然后每个文章都需要出现在Word中,根据模板格式化(粗体标题,斜体显示,顶部的目录,超链接等)。

1 个答案:

答案 0 :(得分:0)

我过去曾使用过其中的一些内容,我建议您清理HTML代码并获取文字两件事:

(注意RegEx,在某些情况下可能会遗漏一些数据或某些字符串)

对于Word,我建议这样做:

  • python-docs:用于将MS Word与Python配合使用的库。

PS:这只是一个小小的简历。如果你只是使用SO搜索者,你会得到很多结果。