Dead Letter Queue (DLQ): o que é e como usar para tratar falhas em integrações?

Em integração de sistemas, a dead letter queue é a fila destinada a receber mensagens que falharam após tentativas controladas de processamento, sem bloquear a fila principal nem interromper o fluxo entre aplicações. Na prática, ela separa erros transitórios de erros definitivos, preserva throughput e cria um ponto seguro para inspeção, correção e reprocessamento. Esse padrão é útil quando ERPs, gateways, sensores e aplicações de chão de fábrica trocam dados de forma assíncrona e precisam manter continuidade operacional mesmo diante de falhas.

O fluxo prático começa com uma política de tentativa automática para falhas transitórias, como timeout, indisponibilidade temporária de API ou recusa momentânea do gateway. Já erros de payload, contrato quebrado ou dado inconsistente devem seguir para inspeção mais cedo. Em arquiteturas com integração via API e webhooks, esse desenho reduz acúmulo silencioso de falhas e melhora rastreabilidade operacional.

Resumo

A dead letter queue isola mensagens problemáticas sem travar a integração principal.
O uso correto depende de retry, limite de tentativas, backoff e critérios claros de descarte.
Mensagens inválidas devem ser segregadas das falhas temporárias para evitar reprocessamento inútil.
KPIs como taxa de falha, volume na DLQ, tempo de reprocessamento e MTTR ajudam na operação.

Fatos rápidos

Segundo a função Recover do NIST Cybersecurity Framework, restaurar operações com agilidade e aprender com incidentes faz parte da disciplina de recuperação.
De acordo com o Roteiro de Métricas do SISP, métricas objetivas apoiam consistência e melhoram estimativas de esforço, prazo e custo.
No Internet-Draft da IETF sobre falhas assíncronas, campos como jobStatus, completedAt e retryable ajudam a comunicar falhas e orientar nova tentativa.

Como estruturar uma dead letter queue

Uma política objetiva costuma combinar três elementos: número máximo de tentativas, intervalo progressivo entre tentativas e classificação do erro. O backoff evita tempestade de retries; o limite de tentativas impede laços improdutivos; e a classificação define se a mensagem deve voltar ao fluxo, ir para correção manual ou ser descartada com registro. No padrão Dead Letter Channel, a ideia é retirar do caminho principal aquilo que não pode ou não deve ser entregue naquele momento.

Critérios de retry e segregação

Retry com backoff para timeout, indisponibilidade e erro 5xx.
Envio direto à DLQ para schema inválido, chave ausente ou regra de negócio inconsistente.
Reprocessamento assistido quando há dependência externa normalizada após a falha.

Cenário	Ação recomendada	KPI associado
ERP indisponível	Retry com backoff	Tempo de reprocessamento
Payload inválido de sensor	DLQ com inspeção	Volume na DLQ
Gateway rejeita transação	Classificar erro e decidir retry	Taxa de falha

Em ambientes distribuídos, monitorar a saúde da fila pede sinais simples e recorrentes. Segundo o Google SRE Book, latency, traffic, errors e saturation formam um conjunto eficiente para acompanhar filas e integrações. Já métricas operacionais como MTTD, MTTR e MTTRepair, tratadas no NIST SP 800-55, ajudam a medir detecção, recuperação e reparo. Em protocolos como MQTT 5.0, a própria especificação da OASIS admite que pacotes descartados possam seguir para uma dead letter queue ou ação diagnóstica.

Confira também estes conteúdos relacionados:

Dead letter queue como mecanismo de continuidade operacional

Quando bem implementada, a dead letter queue deixa de ser apenas uma fila de erro e passa a funcionar como mecanismo de continuidade, diagnóstico e melhoria contínua. Ela preserva o fluxo principal, expõe falhas que exigem correção e cria base para decisões de engenharia mais previsíveis.

Em operações que dependem de integrações entre sistemas, vale tratar esse desenho como parte da governança e manter um canal claro ao entrar em contato com a SysMiddle.

Perguntas frequentes (FAQ)

O que diferencia uma dead letter queue de uma fila comum?

Uma fila comum recebe mensagens previstas para processamento regular. A dead letter queue recebe mensagens que não conseguiram ser processadas dentro das regras definidas, como limite de tentativas ou erro inválido de payload. A função dela é retirar exceções do fluxo principal, preservar a continuidade da integração e facilitar análise posterior sem perda de rastreabilidade.

Quando vale usar retry antes de enviar a mensagem para a DLQ?

Retry costuma fazer sentido em falhas transitórias, como timeout, indisponibilidade temporária de serviço, sobrecarga momentânea e erro intermitente de rede. Quando o erro indica problema estrutural, como schema quebrado, campo obrigatório ausente ou regra de negócio inválida, insistir no reenvio só amplia custo operacional. Nesses casos, a DLQ tende a ser o destino mais adequado.

Como definir o número máximo de tentativas?

O limite depende do custo da operação, da criticidade do evento e do comportamento esperado da dependência externa. Um gateway de pagamento, por exemplo, pode exigir política diferente da leitura de um sensor industrial. O melhor caminho é testar cenários reais, observar tempo médio de normalização do serviço e calibrar retries, backoff e timeout com base em evidências operacionais.

Quais métricas ajudam a acompanhar uma DLQ?

As métricas mais úteis costumam combinar volume e tempo. Taxa de falha, mensagens acumuladas na DLQ, tempo médio de reprocessamento, MTTD e MTTR mostram se a equipe está detectando e resolvendo exceções com eficiência. Também vale acompanhar reincidência por tipo de erro, pois isso ajuda a separar instabilidade temporária de falha estrutural de contrato ou transformação.

Mensagens inválidas devem voltar automaticamente ao fluxo principal?

Nem sempre. Se a mensagem estiver inválida por erro de estrutura, regra ou enriquecimento ausente, o retorno automático pode reproduzir a mesma falha diversas vezes. O mais seguro é classificar o motivo, corrigir a origem quando necessário e só então reprocessar. A automação funciona melhor quando existe evidência de que a causa do erro foi removida do ambiente.

Compartilhe este conteúdo

Sergio Fontana

Empreendedor de tecnologia com 31 anos e mais de 15 anos de experiência em desenvolvimento de software e integração de sistemas. Fundador da SysMiddle, da SF Educacional e criador do método IPRS (Integration Project Requirements Survey), atuo com foco em transformar digitalmente empresas por meio de integrações inteligentes e orientadas a resultados. A SysMiddle é um ecossistema completo de integração de dados e sistemas. Unimos tecnologia, metodologia e serviço especializado para conectar sistemas e automatizar processos de forma ágil, escalável e eficiente. Nosso modelo híbrido, que combina outsourcing de integrações com uma plataforma iPaaS low code, entrega até 85% de ganho em produtividade, com gestão completa, monitoramento proativo e aceleração real do time to market.

Todas as publicações

Relacionados

Integração manual ou terceirizada: descubra a melhor para a sua empresa

Conteúdos relacionados

Integração manual ou terceirizada: descubra a melhor para a sua empresa

Aqui, explicamos o que é integração de sistemas e compara execução interna/manual com terceirização. Mostra critérios de decisão, KPIs operacionais, impactos no negócio e quando cada modelo tende a funcionar

Publicação

Quais são os 8 principais KPIs para sistema integrado de gestão?

Este artigo apresenta oito KPIs essenciais para operações integradas, com foco em resultado financeiro, eficiência operacional, qualidade e estabilidade tecnológica, além de boas práticas de revisão.

Publicação

Qual a diferença entre API e EDI e quando usar na integração de sistemas?

Este texto explica a diferença entre EDI e API com foco em impacto operacional, custo, tempo de resposta, volume transacional e uso combinado em integrações empresariais.

Publicação

Por que a idempotência em API é importante em integrações?

Este artigo explica como a idempotência API reduz duplicidades em integrações, orienta a escolha de métodos, chaves únicas, retries e monitoramento, com foco no impacto operacional, financeiro e gerencial em

Publicação