我试图使用多线程来遍历树结构。这里的问题是,没有HTTP调用就不知道树的结构(即,HTTP调用将为您提供节点的子节点)。因此,我尝试使用多线程来增加我们可以进行的HTTP请求的吞吐量。
我不知道我们应该如何很好地解决这个问题,所以我首先要尝试描述我的想法。
最初我认为它与我们通常在BFS中编写的内容类似,假设我们的并发级别为10。
SemaphoreSlim semaphore = new SemaphoreSlim(10);
Task HTTPGet(Node node) {
blah blah
Q.push(childNodes);
}
while (!Q.isEmpty()) {
Node node = Q.head();
Q.pop();
taskList.Add(Task.Start(() => HTTPGet(node));
}
这里的问题是:处理完第一个节点后,Q变空,整个循环终止。那么我觉得我们还需要检查信号量的剩余计数。因此,如果信号量的剩余计数不是10,则意味着某个进程仍在工作,我们应该等待其进程。
while (!Q.isEmpty() || semaphore.Count != 10) {
Node node = Q.head();
Q.pop();
taskList.Add(Task.Start(() => HTTPGet(node));
}
但显然在第一个节点弹出后,Q仍然是空的,我们需要做一些"等待"在while循环中,以确保我们可以获取节点。
while (!Q.isEmpty() || semaphore.Count != 10) {
if (Q.isEmpty()) {
Wait till Q becomes non empty
or semaphore.Count == 10 again
}
Node node = Q.head();
Q.pop();
taskList.Add(Task.Start(() => HTTPGet(node));
}
然而这变得如此丑陋,我非常确定应该有更好的方法来解决这个问题。我试图在生产者 - 消费者范式中制定它但却失败了(因为这次消费者也将开始更多的生产者)。
有没有更好的方法来制定这个问题?
答案 0 :(得分:1)
通过代码解释更容易,但请注意,这不是我尝试或测试过的。这是为了让您开始正确的路径
class Program {
static void Main(string[] args) {
new Program();
}
Program() {
Node root = new Node("root");
root.Children = new Node[2];
root.Children[0] = new Node("child0");
root.Children[1] = new Node("child1");
MultiThreadedBFS(root);
}
BlockingCollection<Node> Queue = new BlockingCollection<Node>(10); // Limit it to the number of threads
Node[] HTTPGet(Node parentNode) {
return parentNode.Children; //your logic to fetch nodes go here
}
volatile int ThreadCount;
void MultiThreadedBFS(Node root) {
Queue.Add(root);
// we fetch each node's children on a separate thread.
// This means that when all nodes are fetched, there are
// no more threads left. That will be our exit criteria
ThreadCount = 0;
do {
var node = FetchNextNode();
if (node == null)
break;
ProcessNode(node);
} while (true);
}
Node FetchNextNode() {
Node node;
while (!Queue.TryTake(out node, 100)) {
if (ThreadCount == 0 && Queue.Count == 0)
return null; // All nodes have been fetched now
}
return node;
}
void ProcessNode(Node node) {
// you can use a threadpool or task here
new Thread(() => {
Thread.CurrentThread.Name = "ChildThread";
++ThreadCount;
Debug.WriteLine("Retrieving children for Node: " + node);
var children = HTTPGet(node);
foreach (var child in children) {
Debug.WriteLine("Adding node for further processing: " + node);
while (!Queue.TryAdd(child, -1))
;
}
--ThreadCount;
}).Start();
}
// this is the actual node class that represents the Node on the tree
[DebuggerDisplay("Name = {Name}")]
class Node {
public string Name;
public Node[] Children = new Node[0];
public Node(string name) {
Name = name;
}
public override string ToString() {
return Name;
}
}
}
编辑:
我现在更新了程序以修复退出条件和其他一些错误
此外,即使我在这里使用线程,我认为这是使用async / await的完美案例。我会让其他人使用async / await
回答答案 1 :(得分:0)
在从队列中取出之前,让每个线程增加一个从队列中拉出的线程计数器。如果该计数器完全达到线程数,则意味着所有线程都在尝试出列,并且可能无法进行任何操作。在这种情况下,请通知所有线程退出。