使用pandas.read_html时如何忽略<sup> </sup>标记中的内容?

时间:2018-10-05 03:55:42

标签: html pandas lxml

使用<sup></sup>方法时如何忽略pandas.read_html中的内容?

将表数据<td>12&nbsp;December 2018<sup>1</sup></td>转换为12 December 20181的示例。

如何忽略<sup>标签中的内容?

1 个答案:

答案 0 :(得分:1)

Pandas 建议的问题

<块引用>

期望在调用此函数后进行一些清理。

是它删除了标记,因此丢失了进行适当清理所需的信息。

我看到的唯一解决方案是作为预处理步骤清理 HTML。为此,您可以使用 lxml.html.clean.Cleaner。作为起点,您可以尝试以下操作:

redux

然后在 let file = new File([], "21.wav", { type: "audio/wav" }); let uri = URL.createObjectURL(file); let contents = { uri: uri }; const record = async () => { // let contents = await Filesystem.writeFile({ // path: fileName, // data: "", // directory: FilesystemDirectory.Cache, // }); let contentsReplaced = contents.uri.replace(/^file:\/\//, ""); // returns blob url without file extention mediaObject.current = Media.create(contentsReplaced); mediaObject.current.startRecord(); }; 中使用清理过的 HTML。您可能需要调整清理器的其他设置,才能准确保留/清理您需要的内容。