我正在做一些网络爬虫并使用内置的pandas read_html函数。我的一列中有一串格式为“ 0E10”,“ 0E25”,“ 0E8”等的字符串。 熊猫太聪明了,他们认识到0E10是0.0的科学表示法。
是否可以禁用此功能?
如果可能的话,我仍然希望将其他列智能地转换为类型(我还有另外2列是浮点型,应该在输出df中为浮点型。)
答案 0 :(得分:0)
回答我自己的问题。如果有人有更好的解决方案(单线?),请分享。
read_html
具有转换器参数!
df = pd.read_html(url, converters = {'ColName': str})
效果很好。
希望这对于某天花了几个小时试图弄清为什么熊猫将字符串转换为0.0的人很有用!