Node Exporter mit TLS und Basic Auth

Create a self-signed cert for node-exporter:

$ openssl req -new -newkey rsa:2048 -days 365 -nodes -x509 -keyout node_exporter.key -out node_exporter.crt -subj “/C=ZA/ST=CT/L=SA/O=VPN/CN=localhost” -addext “subjectAltName = DNS:localhost” Move the certs into the directory we created:

$ mv node_exporter.* /etc/node-exporter/ Install htpasswd so that we can generate a password hash with bcrypt, which will prompt you for a password that we are setting for the prometheus user::

$ apt install apache2-utils $ htpasswd -nBC 10 "" | tr -d ‘:\n’; echo Now populate the config for node-exporter:

$ cat /etc/node-exporter/config.yml tls_server_config: cert_file: node_exporter.crt key_file: node_exporter.key basic_auth_users: prometheus: Change the ownership of the node exporter directory:

$ chown -R ${NODE_EXPORTER_USER}:${NODE_EXPORTER_USER} /etc/node-exporter Then create the systemd unit file:

$ cat > /etc/systemd/system/node_exporter.service « EOF [Unit] Description=Node Exporter Wants=network-online.target After=network-online.target StartLimitIntervalSec=500 StartLimitBurst=5 [Service] User=${NODE_EXPORTER_USER} Group=${NODE_EXPORTER_USER} Type=simple Restart=on-failure RestartSec=5s ExecStart=${BIN_DIRECTORY}/node_exporter –web.config=/etc/node-exporter/config.yml [Install] WantedBy=multi-user.target EOF Reload systemd and start node-exporter

$ systemctl daemon-reload $ systemctl enable node_exporter $ systemctl restart node_exporter Prometheus Config Copy the /etc/node-exporter/node_exporter.crt from the node-exporter node to prometheus-node, then in the /etc/prometheus/prometheus.yml config:

scrape_configs:

job_name: ’node-exporter-tls’ scheme: https basic_auth: username: prometheus password:
tls_config: ca_file: node_exporter.crt insecure_skip_verify: true static_configs:
- targets: [’node-exporter-ip:9100’] labels: instance: friendly-instance-name

Queries mit PromQL

PromQL wird benutzt um aus einer Prometheus Time-Series-Database (TSD) Daten abzufragen.

Die Daten liegen als Metriken vor, die bei jedem erneuten Abruf (scrape) von den Exportern aktualisiert werden. Dabei wird den Metriken jeweils der aktuelle Timestamp hinzugefügt. Über PromQL lässt sich daher sehr einfach die Veränderung der Metriken über die Zeit nachverfolgen.

Zusätzlich zu den Metriken selber werden Attribute (label) gesetzt um die Metrik genauer zu beschreiben.

> node_cpu_seconds_total
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="idle"}	 206390.26
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="iowait"}	 23.46
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="irq"}	 0
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="nice"}	 6.45
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="softirq"} 13.44
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="steal"}	 0
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="system"}	 804.72
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="user"}	 1166.13
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="idle"}	 206535.23
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="iowait"}	 15.85
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="irq"}	 0
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="nice"}	 16.85
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="softirq"} 11.24
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="steal"}	 0
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="system"}	 828
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="user"}	 1201.18

Wie bei der Ausgabe ersichtlich sind für node_cpu_seconds_total 3 Attribute gesetzt: instance, job und mode

Um auf ein oder mehrer Attribute zu filtern werden sie hinter der Metrik in geschweiften Klammern angegeben.

> node_cpu_seconds_total{mode="user"}
node_cpu_seconds_total{cpu="0", instance="server:9100", job="node", mode="user"}	 1166.13
node_cpu_seconds_total{cpu="1", instance="server:9100", job="node", mode="user"}	 1201.18

Hierdurch wird die Ausgabe eingeschränkt.

Um die Anzahl der CPU Kerne herauszufinden könnte reicht die Zählung der Ergebniszeilen (count).

> count (node_cpu_seconds_total)

Allerdings nur solange es nicht mehrere Instanzen gibt. Bei einer zusätzlichen Instanz mit gleicher Anzahl an CPUs würde nicht 2 pro Instanz ausgegeben, sondern nur 4, da die Zeilen zusammengezählt werden.

Das richtige Ergebnis erhält man nur, wenn man den count nur auf die gleiche Instanz anwendet, also eine Gruppierung auf die Instanz vornimmt.

> count by (instanc) (node_cpu_seconds_total)
node_cpu_seconds_total{instance="server:9100"} 2

Sollte der Wert häufiger benötigt werden, machen eine ‘recording rule’ Sinn. Hierbei werden - parallel zum Abholen neuer Metriken durch den Prometheus Server - auch auf Grund der recording rules eigene Metriken berechnet. Dies verhindert, dass oft genutzte Werte immer wieder innerhalb der PromQL Queries erneut berechnet werden.

groups:
  - name: cpu
    rules:
      - record: instance:node_cpu_seconds_total:count
        expr: count by (instance) (node_cpu_seconds_total{mode="user"})

Diese recording rule definiert eine neue Metrik instance:node_cpu_seconds_total:count, die genau der im vorherigen Bespiel erzeugten Abfrage entspricht.

Um diese recording rule zu aktivieren wird sie in eine yaml Datei gepackt und über rules_file in der Prometheus Konfiguration geladen.

Mit dieser Metrik ist es dann recht enfach die Load der Instanzen (node_load1), die die Summer der Loads aller Scheduler darstellt, durch die Anzahl der Scheduler (= Anzahl der CPU Kerne) zu teilen und einen vergleichbaren Wert für alle Instanzen zu haben. Wir müssen dann nicht mehr wissen wieviele CPU Kerne die Instanzen haben, da alles relativ zu einem CPU Kern dargestellt wird.

Eigentlich ist es nur die Division der Load (node_load1) durch unsere Metrik (instance:node_cpu_seconds_total:count).

Allerdings haben die beiden Werte nicht alle Attribute gleich. node_load1 hat noch das zusätzliche Attribut job. Dieses gibt es bei instance:node_cpu_seconds_total:count nicht.

Daher ist bei der Division dieses Attribut zu ignorieren oder die Division nur auf das Attribut intance anzuwenden.

> node_load1 / ignoring(mode) instance:node_cpu_seconds_total:count
> node_load1 / on(instance) instance:node_cpu_seconds_total:count

Prometheus

Unterabschnitte von Prometheus

Node Exporter mit TLS und Basic Auth

Queries mit PromQL