标签: python ms-word web-scraping
对于文章网址列表,我需要删除文章的标题,作者,日期,出版物和正文。然后每个文章都需要出现在Word中,根据模板格式化(粗体标题,斜体显示,顶部的目录,超链接等)。
答案 0 :(得分:0)
我过去曾使用过其中的一些内容,我建议您清理HTML代码并获取文字两件事:
(注意RegEx,在某些情况下可能会遗漏一些数据或某些字符串)
对于Word,我建议这样做:
PS:这只是一个小小的简历。如果你只是使用SO搜索者,你会得到很多结果。