我有一个excel电子表格,我想从中提取日期,以及所有其他数据。
当我必须为HTML文件执行相同的任务时,我会使用BeautifulSoup,RegEx和dateutil。我将HTML作为字符串读取,使用RegEx捕获整个Sent:
行,然后使用Sent:
从parser.parse()
行解析日期。
with open(file_path, 'r') as f:
html = f.read()
soup = BeautifulSoup(html, 'lxml')
a = pattern.findall(str(soup))[0]
print("a:", a)
d = parser.parse(a, fuzzy=True)
print("year:", d.year)
print("month:", d.month)
print("day:", d.day)
对于此excel表,我使用df = pd.read_csv(file_path)
阅读,然后像以前一样尝试d = parser.parse(df, fuzzy=True)
,但它失败并显示错误:
AttributeError: 'DataFrame' object has no attribute 'read'
有解决方法吗?或者更简单的方法来捕获单个单元格中的日期,如下所示?谢谢你的帮助。