第一次使用RxJS。基本上,我正在尝试制作一个Twitter抓取程序,以从查询字符串中检索推文。搜索网址允许指定min_position参数,该参数可以是上一次进行分页的搜索的最后一个ID。
该过程看起来像这样(它在最后循环返回):
get page -> next() each scraped tweet -> set min_position -> get page (until !has_more_items)
请求页面将返回一个承诺,因此我必须以某种方式等到完成为止才能继续。我希望将异步函数传递给Observable.create()
,但这似乎不起作用,它仅被称为一次。
编辑
尽我所能阅读您的资源后,我一直在玩耍。我提出了以下问题的抽象。
import { from, Observable } from 'rxjs'
import { concatMap, map, switchMap } from 'rxjs/operators'
let pageNumber = 0
const PAGE_SIZE = 3, MAX_PAGES = 3
async function nextPage() {
if (pageNumber >= MAX_PAGES) {
throw new Error('No more pages available')
}
await new Promise(res => setTimeout(res, 500)) // delay 500ms
const output = []
const base = pageNumber++ * PAGE_SIZE
for (let i = 0; i < PAGE_SIZE; i++) {
output.push(base + i)
}
return output
}
function parseTweet(tweet: number): string {
// simply prepend 'tweet' to the tweet
return 'tweet ' + tweet
}
const getTweets = (): Observable<string> => {
return from(nextPage()) // gets _html_ of next page
.pipe(
concatMap(page => page), // spreads out tweet strings in page
map(tweet => parseTweet(tweet)), // parses each tweet's html
switchMap(() => getTweets()) // concat to next page's tweets
// stop/finish observable when getTweets() observable returns an error
)
}
getTweets()
.subscribe(val => console.log(val))
它已经接近工作了,但是现在nextPage()
返回被拒绝的承诺时,整个可观察的中断(什么都没有记录到控制台)。
我尝试在catchError
之后插入pipe
来完成可观察的操作,而不是运行并抛出错误,但是我无法使其正常工作。
此实现也是递归的,我希望避免这种实现,因为它不可扩展。我不知道将来会观察到多少条推文/页面。似乎还必须处理所有3页上的推文,然后可观察对象开始发出值,这当然不是它应该如何工作的。
感谢您的帮助! :)
答案 0 :(得分:0)
我们需要加载Twits,直到某些情况出现并以某种方式与Promise合作?看一个例子:
function loadTwits(id) {
// Observable that replay last value and have default one
twitId$ = new BehaviorSubject(id);
return twitId$.pipe(
// concatMap - outside stream emit in order inner do
// from - convert Promise to Observable
concatMap(id => from(fetchTwits(id))),
map(parseTwits),
// load more twits or comlete
tap(twits => getLastTwitId(twits) ? twitId$.next(getLastTwitId(twits)) : twitId$.complete())
)
}
答案 1 :(得分:0)
在进一步研究expand
并意识到这是我的可观察对象中需要的递归之后,我弄清楚了。这是创建可观察的代码:
const nextPage$f = () => from(nextPage()) // gets _html_ of next page
.pipe(
concatMap(page => page), // spreads out tweet strings in page
map(tweet => parseTweet(tweet)) // parses each tweet's html
)
const tweets$ = nextPage$f()
.pipe(
expand(() => morePages() ? nextPage$f() : empty())
)