读取HTML表并将数据输入MySQL数据库

时间:2013-06-28 16:06:04

标签: html mysql bash ubuntu automation

我有一个HTML页面

table.html
<table border="1">
<tr>
<td>row 1, cell 1</td>
<td>row 1, cell 2</td>
</tr>
<tr>
<td>row 2, cell 1</td>
<td>row 2, cell 2</td>
</tr>
</table>

我希望能够lynx -dump此页面并将html表中的数据插入到mysql数据库中(HTML页面将始终具有相同的标题,但数据将每天更改。

我想让这个脚本继续运行然后添加到cron中,所以我不必像现在这样手动输入数据!

有人知道这样做是因为我现在真的陷入困境。

由于

1 个答案:

答案 0 :(得分:0)

我不知道任何现成的解决方案。如果你不害怕某些Python编码,我认为使用BeautifulSoup在你的html中导航会很容易(这本身并不是一件容易的事)。

你会有类似的东西:

from bs4 import BeautifulSoup
import MySQLdb
db=MySQLdb.connect(passwd="xxx",db="xxx")
c=db.cursor()

soup = BeautifulSoup(html_file)

tr_list=soup.find_all("tr")
for tr in tr_list:
  cell1=tr.find_all("td")[0]
  cell2=tr.find_all("td")[1]
  #do your sql insert here
  c.execute ("SQL query here")
c.close()