使用ELK堆栈

时间:2016-11-25 14:27:15

标签: .net amazon-s3 scalability nlog elastic-stack

使用带有Elasticsearch target的NLog将日志转发到AWS Elasticsearch as a Service群集,以便在Kibana中进行可视化。

这很好但我担心由于ES群集可用性而导致在生产中使用它,以及当使用elasticsearch-net client通过HTTP发送日志时群集故障转移的影响。

我正在考虑为NLog使用不同的目标,将日志发送到更可靠的目的地(文件,S3?),然后让其他东西(Logstash,AWS Lambda)接收它们并将它们发送到ES,这样最小化应用程序本身的风险。

想听听你的想法

更新

主要关注的是应用程序可用性并防止丢失日志使用辅助目标。

使用最新的NLog和throwExceptions设置为false,此时不使用异步目标,但考虑到这一点,因为我们有很多异步代码。

为了提供更多的上下文,“app”是一组API(WebAPI和WCF),其速度为10-15K RPM。

方案

请求进来且ES群集不可用。

案例1 - 没有异步目标的NLog

<nlog xmlns="http://www.nlog-project.org/schemas/NLog.xsd"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:schemaLocation="http://www.nlog-project.org/schemas/NLog.xsd NLog.xsd"
        autoReload="true"
        throwExceptions="false"
        internalLogLevel="Off"
        internalLogFile="c:\temp\nlog-internal.log">

    <targets>
      <target name="elastic"
              xsi:type="BufferingWrapper"
              flushTimeout="5000">
        <target xsi:type="ElasticSearch"
                layout="${logger} | ${threadid} | ${message}"
                index="logstash-${date:format=yyyy.MM.dd}"
                includeAllProperties="true"
                uri="...">

          <field name="user"
                 layout="${windows-identity:userName=True:domain=False}"/>
          <field name="host"
                 layout="${machinename}"/>
          <field name="number"
                 layout="1"
                 layoutType="System.Int32"/>

        </target>
      </target>
    </targets>
    <rules>
      <logger name="*"
              minlevel="Debug"
              writeTo="elastic" />
    </rules>
  </nlog>

问:

  • 无法到达目标时主线程会发生什么?

案例2 - 具有异步目标的NLog

使用带有queueLimit =“10000”的弹性搜索目标的异步包装程序batchSize =“100”

问:

  • 是另一个创建的线程[B]?
  • 将后续请求重用线程[B]并对日志记录请求进行排队吗?
  • 到达queueLimit时会发生什么?
  • 是否会启动其他线程[B1 ... Bn]? (这会泛滥连接池)

1 个答案:

答案 0 :(得分:6)

好问题。

没有什么可担心的,但正确配置NLog非常重要。

不确定什么应该是可靠的,运行程序或不丢失日志消息,所以对于这些情况:

  • 如果您害怕丢失一些日志消息

    • 写入多个目标(来自NLog),例如文件 Elasticsearch。
    • 可选,使用fallbackgroupwrapper(如果写入目标时出错)
    • 如果启用了异步,则check the overflow/queue settings - 默认启用discard(以防止CPU或内存过载)
  • 如果您担心日志记录可能会破坏您的应用程序:

    • 使用最新的稳定版NLog
    • 不要启用throwExceptions(默认情况下禁用)
    • 如果启用async,错误会在另一个线程中写入目标,因此无法破坏您的应用。
    • 使用asynccheck the overflow and queue settings
    • 时也是如此

<强>更新

案例1,

  

当无法达到目标时主线程会发生什么?

无。主要将消息排入缓冲区。另一个(Timer)线程正在处理这些消息。如果失败,并且未启用throwException,则只会将错误写入internalLog(启用时)。将捕获所有异常。写入目标失败时,您将丢失消息。

案例2,

  

是另一个创建的线程[B]吗?

将创建一个Timer。这将创建一个用于处理消息的线程。

  

后续请求会重用线程[B]并对日志记录请求进行排队吗?

是的,但不保证它会在同一个帖子中。计时器将从池中创建一个线程。注意:只有一个线程会同时存活。

  

到达queueLimit时会发生什么?

取决于您的配置。默认情况下,它将默认丢弃,如上所述。见check the overflow/queue settings。就内存和CPU而言,这是最安全的选择。您可以选择丢弃,阻止(停止主线程)或增加队列(通过了解内存使用情况)。

  

是否会启动其他线程[B1 ... Bn]? (这会泛滥连接池)

没有。 1个定时器,1个线程池。有关详情,请查看MSDN page for Timerreference source