从外部网站索引xml文件

时间:2010-01-22 05:38:26

标签: python xml django

使用python django我想访问这个网站http://www.reta-vortaro.de/revo/这是一个名为esperanto的语言的字典网站,我需要能够搜索一个单词,并获得它的定义,它看起来像每个世界语根词有一个xml文件,

  1. 我需要索引每个xml文件
  2. 将每个xml文件的名称存储在数据库中。
  3. 在我的网站上,我需要$ _GET这个词。
  4. 我需要搜索这些根词的组合以及以它命名的xml文件。

6 个答案:

答案 0 :(得分:2)

大多数编程语言都可以访问某种XML解析器以及一些持久的嵌入式键值存储。一旦你决定使用编程语言,只需找到一个你感觉舒适的编程语言。

答案 1 :(得分:2)

不知道,如果您有权访问WSDL。您可以通过这种方式访问​​数据。 你遇到的问题究竟是什么?

答案 2 :(得分:1)

只要您需要建立索引和快速搜索,就可能需要XML database来存储您的字典(尤其是复杂查询和大字典)。您可以从PHP轻松访问大多数XML数据库。

答案 3 :(得分:1)

我会考虑这样的工作流程:

  1. 下载所有文件
  2. 将其内容和文件名加载到数据库中(任何数据库都适合)
  3. 设置狮身人面像搜索工具(http://sphinx.pocoo.org/
  4. 运行sphinx为xml_contents构建索引
  5. 将您的应用程序设计为使用sphinx进行索引搜索
  6. 删除所有文件包含,只在数据库中保留文件名和sphinx索引
  7. 使用sphinx搜索时,您将获得一个文件名,并按照之前的操作
  8. 进行操作

    我对sphinx不太熟悉,不知道是否能够使用文件,构建它的索引,这就是为什么我提供你将所有信息加载到数据库中

答案 4 :(得分:0)

您是否曾尝试向网站管理员询问数据?或许他可以为你设置一个网络服务?

答案 5 :(得分:0)

好吧,您可以使用file_get_contents(),curl,wget或最让您满意的工具获取每个XML文件。

然后,您可以将XML文件保存在文件系统上,甚至可以更好地使用Oracle的Berkeley DBXML,实际上您可以将XML保存在数据库中并进行查询,就像它是SQL一样。它具有PHP绑定,并允许您使用XQuery进行查询。我用它来取代XML Web服务,就像一个魅力,快速燃烧。

对于PHP XML解析,我曾经使用Keith Devens' XML to Array解析器,这很容易,但它现在已经过时了现在我使用CakePHP自己,你可能想要使用PHP的SimpleXML。您还可以在应用程序的客户端使用基于JavaScript的解析器,如jParse(jQuery)。

这是PHP + dbXML的页面,但似乎已关闭:http://phpdbxml.4641.org/但你可以从这里下载它:http://www.oracle.com/technology/software/products/berkeley-db/index.html(也有许可证)。

我希望它有所帮助。