我正在使用wget获取文件。它具有纯文本,我想在适当的列上插入到mysql数据库中。
我完全应该使用哪种方法。 我一直在寻找curl,regex等,但是找不到方法。
下面列出的示例:
第1项:一个
项目2:两个
条款3:此行上有很多文字
并继续下一行
项目4:四个
第1项:五个
Item2:六个
条款3:此行上有很多文字
并继续下一行
第4项:
那么我该如何解析所有数据,并将其插入到mysql中。上面只是2个示例,但是页面大约有50个(我不想列出所有50个LOL) Page的开头和结尾确实有一些基本的html内容,不确定在插入数据库之前是否需要删除这些内容。
感谢所有反馈。
答案 0 :(得分:0)
如果数据不一致,则我不知道一种简单的方法。
第二个选项将尝试JSON插入,如果数据不适合关系模型,则此NOSQL方法将很方便。
https://dev.mysql.com/doc/refman/5.7/en/json-modification-functions.html#function_json-insert