Indisponibilidade nos sistemas da Kiwify
Incident Report for Kiwify
Postmortem

No dia 23 de janeiro de 2025, às 04:20 (horário de São Paulo), realizamos um upgrade planejado da versão do nosso banco de dados.

Logo após a atualização, identificamos uma severa lentidão no banco de dados, o que impactou diretamente o desempenho dos nossos sistemas.

Impacto

  • O sistema de pagamentos da Kiwify ficou indisponível das 04:20 até as 10:40.
  • O dashboard ficou fora do ar até as 11:50.

Ações Tomadas

Inicialmente, tentamos realizar um rollback para a versão anterior do banco de dados. No entanto, devido à indisponibilidade de recursos na infraestrutura do Google Cloud Platform (GCP) para provisionar uma nova máquina, não conseguimos concluir o rollback.

Nossa equipe trabalhou para identificar e corrigir a causa raiz do problema e acabar com a lentidão no banco de dados.

Após os ajustes necessários, os serviços foram completamente restaurados e voltaram a funcionar normalmente.

Medidas de Prevenção

  • Ajustes nos processos internos, especialmente relacionados a manutenções de banco de dados.
  • Criação de página de status (essa que você está lendo), para dar transparência ao nossos clientes sobre a saúde e incidentes no sistema da Kiwify

Palavra do CEO

Esse foi o nosso primeiro e único incidente grave nos quase 5 anos de existência da Kiwify. Pedimos sinceras desculpas pelo ocorrido porque entendemos como a instabilidade da plataforma pode causar perdas ao seu negócio. Não esperamos passar por um episódio como esse nunca mais.

Esse incidente servirá de lição para melhorarmos o nosso nível de excelência técnico e de comunicação.

Posted Jan 24, 2025 - 11:11 GMT-03:00

Resolved
No dia 23 de janeiro de 2025, às 04:20 (horário de São Paulo), realizamos um upgrade planejado da versão do nosso banco de dados. Logo após a atualização, identificamos uma severa lentidão no banco de dados, o que impactou diretamente o desempenho dos nossos sistemas.

Nossa equipe trabalhou para identificar e corrigir a causa raiz do problema.
Após os ajustes necessários, os serviços foram completamente restaurados e voltaram a funcionar normalmente.
Posted Jan 23, 2025 - 04:20 GMT-03:00