Question

我首先要说我是R的初学者并且正在参加数据分析课程。我们获得了一个非常大的RDS文件（约6mil obs。）来读取和执行计算。我们被告知使用readRDS，你可以想象，这需要永远阅读。我只需要一个数据子集，在过去我曾使用read.csv.sql来限制我实际读入程序的内容。有没有办法限制我使用readRDS读取的内容，还是有更好的方法来做到这一点？这是RDS的标题

##     fips      SCC Pollutant Emissions  type year
## 4  09001 10100401  PM25-PRI    15.714 POINT 1999
## 8  09001 10100404  PM25-PRI   234.178 POINT 1999
## 12 09001 10100501  PM25-PRI     0.128 POINT 1999
## 16 09001 10200401  PM25-PRI     2.036 POINT 1999
## 20 09001 10200504  PM25-PRI     0.388 POINT 1999
## 24 09001 10200602  PM25-PRI     1.490 POINT 1999

我只需要fips ==＆＃34; 24510＆＃34;

的行

以下是完整的脚本：

NEI <- readRDS("summarySCC_PM25.rds")
SCC <- readRDS("Source_Classification_Code.rds")

# Aggregate data for just Baltimore
city <- subset(NEI, fips == "24510")
totalPM <- tapply(city$Emissions, city$year, sum)
png(filename='plot2.png')
#Plot data
barplot(totalPM, main=expression('Total Emission of PM for Baltimore'[2.5]),
        xlab='Year', ylab=expression(paste('PM', ''[2.5], ' in Kilotons')))

dev.off()

使用sql语句从RDS文件读取

0 个答案: