一般来说,Apriori算法以矩阵的形式接收输入,如下所示:
TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0
虽然,我的输入是XML数据,一般形式为:
<article key="tr/gte/TR-0263-08-94-165">
<author>Frank Manola</author>
<title>An Evaluation of Object-Oriented DBMS Developments: 1994 Edition.</title>
<journal>GTE Laboratories Incorporated</journal>
<volume>TR-0263-08-94-165</volume>
<month>August</month>
<year>1994</year>
</article>
如何将此类数据转换为合适的格式以供算法接受?任何建议。
由于
答案 0 :(得分:0)
假设您正在使用Python,最好使用Element Tree XML解析器(下面包含的文档)。这允许您将XML数据解析为python字典,然后您可以根据需要进行翻译。请注意,如果您的XML数据文件非常大,使用iterparse可以很方便地避免大量内存需求。
https://docs.python.org/2/library/xml.etree.elementtree.html