我有一个HTML页面
table.html
<table border="1">
<tr>
<td>row 1, cell 1</td>
<td>row 1, cell 2</td>
</tr>
<tr>
<td>row 2, cell 1</td>
<td>row 2, cell 2</td>
</tr>
</table>
我希望能够lynx -dump
此页面并将html表中的数据插入到mysql数据库中(HTML页面将始终具有相同的标题,但数据将每天更改。
我想让这个脚本继续运行然后添加到cron中,所以我不必像现在这样手动输入数据!
有人知道这样做是因为我现在真的陷入困境。
由于
答案 0 :(得分:0)
我不知道任何现成的解决方案。如果你不害怕某些Python编码,我认为使用BeautifulSoup在你的html中导航会很容易(这本身并不是一件容易的事)。
你会有类似的东西:
from bs4 import BeautifulSoup
import MySQLdb
db=MySQLdb.connect(passwd="xxx",db="xxx")
c=db.cursor()
soup = BeautifulSoup(html_file)
tr_list=soup.find_all("tr")
for tr in tr_list:
cell1=tr.find_all("td")[0]
cell2=tr.find_all("td")[1]
#do your sql insert here
c.execute ("SQL query here")
c.close()