Question

一般来说，Apriori算法以矩阵的形式接收输入，如下所示：

TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0

虽然，我的输入是XML数据，一般形式为：

 <article key="tr/gte/TR-0263-08-94-165">
<author>Frank Manola</author>
<title>An Evaluation of Object-Oriented DBMS Developments: 1994 Edition.</title>
<journal>GTE Laboratories Incorporated</journal>
<volume>TR-0263-08-94-165</volume>
<month>August</month>
<year>1994</year>
</article>

如何将此类数据转换为合适的格式以供算法接受？任何建议。

由于

Answer 1

假设您正在使用Python，最好使用Element Tree XML解析器（下面包含的文档）。这允许您将XML数据解析为python字典，然后您可以根据需要进行翻译。请注意，如果您的XML数据文件非常大，使用iterparse可以很方便地避免大量内存需求。

https://docs.python.org/2/library/xml.etree.elementtree.html

为Apriori算法准备XML数据

1 个答案: