什么是最合适的数据集?

时间:2013-01-15 19:14:06

标签: algorithm dataset data-mining

我正在制作一个数据挖掘应用程序,可以根据患者的症状对患者进行正确诊断。我想知道是否有人知道什么是我需要的最合适的数据集以及从哪里可以得到它。这是一种更好的方法来专注于某一领域(即心脏病,糖尿病等),还是应该根据所有类型的疾病对患者进行整体分类?理想情况下,我希望数据集基于患者对医生的访问。因此它应该包含症状和诊断。但是,如果我可以获得包含其他属性(如年龄,性别等)的数据集,那么情况会更好。如果有人可以帮助我并指出我适合的数据集,那么我将不胜感激。

1 个答案:

答案 0 :(得分:1)

有一些示例数据集。

例如,在Weka中,有一个包含糖尿病数据的数据集。这些是变量:

%    1. Number of times pregnant
%    2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
%    3. Diastolic blood pressure (mm Hg)
%    4. Triceps skin fold thickness (mm)
%    5. 2-Hour serum insulin (mu U/ml)
%    6. Body mass index (weight in kg/(height in m)^2)
%    7. Diabetes pedigree function
%    8. Age (years)
%    9. Class variable (0 or 1)

另请查看此页面以获取更多公开资源(其中一些可能具有医学背景)的列表: