如何获取列表中随机选择的行的索引(Python)

时间:2015-02-24 21:05:09

标签: python search random machine-learning indices

好吧,我不知道我是说得不好还是其他什么,但我似乎无法在这里找到类似的问题。

所以我有一个2D列表,每行代表一个案例,每列代表一个特征(用于机器学习)。另外,我有一个单独的列表(列)作为标签。

我想从2D列表中随机选择行来训练分类器,同时使用其余的来测试准确性。因此,我希望能够知道我用于训练的所有行的索引,以避免重复。

我认为问题有两部分: 1)如何随机选择 2)如何获得指数

我再也不知道为什么我不能通过搜索找到好的信息(也许我只是吮吸)

对不起,我还是社区的新手,所以我可能犯了很多格式错误。如果您有任何建议,请告诉我。

这是我用来获取2D列表的代码部分

#273 = number of cases
feature_list=[[0]*len(mega_list)]*273
#create counters to use for index later
link_count=0
feature_count=0
#print len(mega_list)
for link in url_list[:-1]:

    #setup the url
    samp_url='http://www.mtsamples.com'+link
    samp_url = "%20".join( samp_url.split() )

    #soup it for keywords
    samp_soup=BeautifulSoup(urllib2.urlopen(samp_url).read())
    keywords=samp_soup.find('meta')['content']
    keywords=keywords.split(',')

    for keys in keywords:
        #print 'megalist: '+ str(mega_list.index(keys))
        if keys in mega_list:
            feature_list[link_count][mega_list.index(keys)]=1 

mega_list:包含所有关键字的列表

feature_list:2D列表,包含mega_list中的任何单词,特定单元格设置为1,否则为0

2 个答案:

答案 0 :(得分:1)

据我所知,你有一个列表,你想要对列表进行采样并保存索引以备将来使用。 请参阅:https://docs.python.org/2/library/random.html

你可以做一个random.sample(xrange(sizeoflist),sizeofsample),它将返回你的样本的索引。然后,您可以使用该样本进行培训并跳过它们(或获得幻想并设置差异)进行验证。

希望这有帮助

答案 1 :(得分:1)

我会将数据存储在pandas数据框中而不是2D列表中。如果我理解你的数据,你就可以这样做:

import pandas as pd

df = pd.DataFrame(feature_list, columns = mega_list)

我没有看到任何因变量的提及,但我假设你有一个,因为你提到了一个分类器算法。如果您的因变量被称为" Y"并且是一个列表格式,其索引与您的功能一致,那么此代码将适合您:

from sklearn import cross_validation

x_train, x_test, y_train, y_test = cross_validation.train_test_split(
    df, Y, test_size=0.8, random_state=0)