我首先要说我是R的初学者并且正在参加数据分析课程。 我们获得了一个非常大的RDS文件(约6mil obs。)来读取和执行计算。我们被告知使用readRDS,你可以想象,这需要永远阅读。我只需要一个数据子集,在过去我曾使用read.csv.sql来限制我实际读入程序的内容。有没有办法限制我使用readRDS读取的内容,还是有更好的方法来做到这一点? 这是RDS的标题
## fips SCC Pollutant Emissions type year
## 4 09001 10100401 PM25-PRI 15.714 POINT 1999
## 8 09001 10100404 PM25-PRI 234.178 POINT 1999
## 12 09001 10100501 PM25-PRI 0.128 POINT 1999
## 16 09001 10200401 PM25-PRI 2.036 POINT 1999
## 20 09001 10200504 PM25-PRI 0.388 POINT 1999
## 24 09001 10200602 PM25-PRI 1.490 POINT 1999
我只需要fips ==" 24510"
的行以下是完整的脚本:
NEI <- readRDS("summarySCC_PM25.rds")
SCC <- readRDS("Source_Classification_Code.rds")
# Aggregate data for just Baltimore
city <- subset(NEI, fips == "24510")
totalPM <- tapply(city$Emissions, city$year, sum)
png(filename='plot2.png')
#Plot data
barplot(totalPM, main=expression('Total Emission of PM for Baltimore'[2.5]),
xlab='Year', ylab=expression(paste('PM', ''[2.5], ' in Kilotons')))
dev.off()