停止pd.read_html将科学符号类似的字符串“ 0E10”转换为浮点数0.0

时间:2019-09-19 19:16:50

标签: python pandas

我正在做一些网络爬虫并使用内置的pandas read_html函数。我的一列中有一串格式为“ 0E10”,“ 0E25”,“ 0E8”等的字符串。 熊猫太聪明了,他们认识到0E10是0.0的科学表示法。

是否可以禁用此功能?

如果可能的话,我仍然希望将其他列智能地转换为类型(我还有另外2列是浮点型,应该在输出df中为浮点型。)

1 个答案:

答案 0 :(得分:0)

回答我自己的问题。如果有人有更好的解决方案(单线?),请分享。

read_html具有转换器参数!

df = pd.read_html(url, converters = {'ColName': str})

效果很好。

希望这对于某天花了几个小时试图弄清为什么熊猫将字符串转换为0.0的人很有用!