我希望将包含丑陋代码的网页导出到干净的CSV格式,以便我可以轻松使用它。 What I get in my CSV:
我一直在审查许多其他解决方案,并且找到了一些指南,这些指南使我了解到了目前的位置,但是现在我只剩下一列“和一排”。我尝试对'',NaN,None等进行的任何调整似乎都对输出产生不利影响。我对.dropna()和.replace(...)的尝试是徒劳的。
import pandas as pd
pd.reset_option('max_rows')
pd.reset_option('max_columns')
pd.set_option('display.width', 800)
url="https://www.beatsbydre.com/de/support/service-warranty"
df = pd.read_html(url)
with pd.option_context('display.max_rows', 0, 'display.max_columns', 3):
df[3].replace(to_replace=r'^Pill XL*', value='', regex=True).replace(to_replace=r'^R.*', value='', regex=True).to_csv("beats.csv", header=None, index = False)
理想情况下,我将不需要更多的行或列,并且可以看到产品的第二列列出了价格。
或者,我想知道是否有人使用.replace命令并输入了NaN值。当我尝试将其输入为字符串而不是数据帧中的属性时,这可能允许我有更多选择摆脱空属性。