O que é "observabilidade"?

Observabilidade é um conceito criado na área da Engenharia, sendo um termo recente para o setor de tecnologia. O conceito inicial foi desenvolvido pelo engenheiro elétrico, matemático e inventor Rudolf E. Kálmán. De maneira extremamente resumida e, para facilitar o entendimento sobre a Teoria Geral da Observabilidade, Kalman a define com a frase “um sistema é completamente observável se todo constate for observável”. A leitura

De acordo com esta definição, temos de maneira menos formal o seguinte resumo sobre observabilidade:

"A partir de saídas do sistema é possível determinar o comportamento de todo o sistema.".

Para o nosso dia a dia, vamos ousar resumir esse novo conceito no âmbito da tecnologia, da seguinte forma: "Observabilidade é um conceito que se utiliza de ferramentas para manter um ecossistema funcionando, através de dados (métricas, logs, traces, ...) que possam ser coletados e analisados para mantê-lo." 

Como desenvolver esse conceito? 

Na área de tecnologia, esse conceito tem sido desenvolvido, principalmente, por grandes corporações, onde os sistemas operantes não podem parar, ou o downtime deve ser o mínimo possível em sua extensa gama de serviços e microsserviços.

Então, como no "Mundo TOTVS", aquelas empresas que ainda não têm uma grande equipe de Infra e não têm um grande ecossistema como a TOTVS, a Amazon ou Google, irão desenvolver esses conceitos?

Com objetivo de responder essa e outras perguntas, vamos apresentar algumas ferramentas que possam ajudar na Observabilidade de seus KPIs em seu ambiente e fazer com que seu sistema tenha menor MTTR e maior MTBF possível.

Vamos começar com alguns conceitos:

KPI (Key Performance Indicator) - São os principais indicadores de performance de seu ambiente.

MTTR (Mean Time To Repair) - Tempo médio para reparo entre falhas, ou seja: quanto menor o tempo entre falhas, melhor.

MTBF (Mean Time Between Failures) - Tempo médio entre falhas, ou seja: quanto maior o tempo entre falhas, melhor.

Para que seu ambiente fique 99,99% do tempo UP, não é fácil mantê-lo e tem um alto custo. Por isso, é importante entender quais são seus principais indicadores de ambiente e alinhar com a área administrativa da empresa qual é o maior MTTR possível, porque, quanto menor o tempo, mais caro será a solução para resolver essa questão.

O investimento para manter um sistema disponível 99,99% do tempo ativo, engloba soluções de High Availability (HA) e Desaster Recovery (DR).