[eside-ghost] Empezar con monitorización

Alvaro Uría alvaro.uria en opendeusto.es
Vie Feb 27 11:55:43 CET 2015


Aupi,

El 26 de febrero de 2015, 1:07, Jon Bonilla (Manwe) <manwe en aholab.ehu.es>
escribió:

> A la mente me viene Nagios. Pero echando un ojo a los repos me encuentro
> también con Icinga y con Shinken. Y si echo un ojo a las interfaces de
> cada uno
> ya es la locura.
>
> Querría que me dierais vuestros pálpitos acerca de qué usar.
>

¿Qué es lo que quieres monitorizar (tipos de servicios, hosts; cantidad de
cada uno)? ¿Necesitas solamente mantener un histórico de métricas o también
necesitas alertas? ¿Qué esquema de comunicación prefiereres/se permite en
tu red (checks [monitorización activa] de un sistema hacia el resto o
recolección [monitorización pasiva] de cada nodo al maestro/s)?

Creo que Nagios es muy buen punto de partida para aprender. El histórico de
checks es sobre OK, WARNING, CRITICAL y UNKNOWN, así que te perderías la
evolución hasta sobrepasar cada límite. Está pensado para que te avise que
algo pasa, para que actúes.

Así, rápido, para echar un ojo a algunas herramientas (que ya te han
comentado, llego tarde :D):
- graficado (no alertas)
 + mrtg, cacti: se pueden conectar al snmpd de los nodos de los que
recolectar métricas. Son sencillos pero puede ser costoso mantenerlo si
tienes nodos que vienen y van (continuamente entrando nuevos nodos,
añadiendo o quitando métricas, reconfigurando los nodos con otro rol)
 + graphite: los nodos (que pueden ejecutar un demonio en cualquier
lenguaje; Diamond, en python, es interesante) envían métricas al servidor
(lo llaman carbon). El módulo graphite es la interfaz web hecha en Django
para ver las métricas en gráficos. Luego, existen mejores interfaces web
como Grafana u otras. También, si tienes muuchos nodos enviando métricas,
puedes poner servicios intermedios como Statsd para agregar toda la
información de unos cuantos nodos, y así el servidor principal recibe menos
conexiones.
 + logstash: puede recibir syslogs de los nodos para avisar en base a
mensajes de error (e incluso enviar emails al admin para que actúe)

- alertas (comunicándose directamente con los nodos o leyendo las métricas
recolectadas por los sistemas de graficado)
 + Nagios, hace checks hacia los nodos
 + PandoraFMS, recibe xmls de los nodos, con información del estado.
También puede hacer checks hacia los nodos, o controlar que cierto nodo no
está enviando los xmls (módulo keepalive). A diferencia de Nagios, puede
recolectar números, strings... también tiene un pequeño sistema de
graficado para ver la evolución de un servicio. Y algo interesante:
controla dependencias para que si se cae un switch, no te avise de que se
han caído todos los hosts por debajo (ruido).

gracias,
>
> Jon
>

Suerte! :D
 Alvaro.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://listas.deusto.es/mailman/private/eside-ghost/attachments/20150227/162cff54/attachment.html>


Más información sobre la lista de distribución eside-ghost