将静态文件转换为MySQL条目

时间:2009-02-20 15:37:05

标签: mysql html xml xslt transform

我正在将包含HTML的大约4000个文本文件转换为MySQL数据库条目。看起来像一个简单的方法就是在HTML中添加几行以使它们显示为XML文件,然后将XML XSLT转换为MySQL INSERT语句。 (构建CSV也可以,但不太理想恕我直言)。我已经尝试过这样做,但我很幸运能让我的XSL玩得很好。

我在Windoze盒子上,但可以通过SSH连接到我的webhost并运行PHP,也许是Perl。希望尽可能地自动化这个。我可以构建一个文件列表,并将其轻松地提供给脚本。

文件名模式:ab12345.html(数字部分从3-6位数不等)

文件名内容示例 - 这是整个文件,没有HTML页脚/标题:

<div class="abEntry"><a name="top"><img width="1" height="1" src="images/common/blank.gif"/></a><div id="abEntryTitle"><div id="abEntryTitleText">What does error note "90210 Cannot Do This Thing" mean?</div></div>
            <div class="abEntryParagraph">This error means your McWhopper drive is frazzled. Read me the number off the modem--thats the little boxy thing attached to the big boxy thing--thanks.</div>
        <div class="abEntryDocumentNumber">ab90210</div>

MySQL列以及我希望它们如何映射回上面的内容

EntryID = auto increment
title = contents of #abEntryTitleText
content = contents of #abEntryParagraph
lastupdated = curdate
related = "1"
visible = "1"
sortorder = "0"
userid = "1"
views = "0"
posvotes = "1"
negvotes = "0"
score = null
emailed = null
detectrelated = "1"
metakeywords = null
metadescription = contents of #abEntryDocumentNumber
startdate = curdate
enableexpiry = "0"
expirydate = null
featured = "0"
workflowstatus = "auto_approved"

我尝试过的XSL:

<xsl:transform version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform ">
<xsl:output method="html" indent="no"/>
<xsl:template match="/"><xsl:apply-templates/></xsl:template>
<xsl:template match="content">
<xsl:text>INSERT INTO questions (approved, title, description, publishDate) VALUES </xsl:text><xsl:text>(1, </xsl:text><xsl:value-of select="id(abEntryTitleText)"/><xsl:text>, </xsl:text>
<xsl:copy-of select="node()|@*"/>
<xsl:text>, </xsl:text>TODAY<xsl:text>,1, 1)</xsl:text>
</xsl:template>
</xsl:transform>

2 个答案:

答案 0 :(得分:0)

我不熟悉xsl,所以我会使用php's DOM解决这个问题。 IIRC它可以解析html而不是正确的xml。

Tutortial www.phpro.org

答案 1 :(得分:0)

您正在寻找从&lt; div&gt;创建插入语句的xslt元素将是

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" 
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform" 
    xmlns:msxsl="urn:schemas-microsoft-com:xslt" 
    exclude-result-prefixes="msxsl">

    <xsl:output method="text" indent="no"/>

    <xsl:template match="div[@class='abEntry']">
INSERT INTO questions (approved, title, content, metadescription, publishDate)
VALUES (1, '<xsl:value-of select="normalize-space(*/div[@id='abEntryTitleText']/text())" />', '<xsl:value-of select="normalize-space(div[@class='abEntryParagraph']/text())" />', '<xsl:value-of select="normalize-space(div[@class='abEntryDocumentNumber']/text())" />', TODAY)
    </xsl:template>

</xsl:stylesheet>

您可以进一步修改此选项以包含其他常量列值。

之后你显然需要一个脚本或应用程序来运行每个文件的xstl。如果你愿意,我可以在.Net中快速写一些东西,但是如果你有其他工具/脚本功能,那么使用它可能会更快。