Fundamentos de dados e analytics: por que isso cai em prova
Em ambientes bancários, decisões (crédito, fraude, campanhas, risco, eficiência operacional) dependem de dados confiáveis e bem organizados. Em prova, é comum cobrarem definições, diferenças entre ambientes transacionais e analíticos, noções de data warehouse, processos ETL/ELT, modelagem dimensional e critérios de qualidade da informação.
Tipos de dados: classificações úteis para questões
Tipos por estrutura
Estruturados: organizados em tabelas com esquema definido (ex.: cadastro de clientes, contas, transações).
Semiestruturados: possuem marcações/estrutura flexível (ex.: JSON de eventos de navegação, logs com campos variáveis).
Não estruturados: sem esquema tabular (ex.: e-mails, PDFs, áudios de atendimento, imagens).
Tipos por natureza estatística (muito cobrado)
Qualitativos (categóricos): representam categorias. Nominais (sem ordem: UF, tipo de conta) e ordinais (com ordem: classificação de risco A/B/C).
Continue em nosso aplicativo
Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.
ou continue lendo abaixo...Baixar o aplicativo
Quantitativos (numéricos): representam medidas. Discretos (contagens: número de transações) e contínuos (medidas: saldo, valor de compra).
Tipos por uso no tempo
Dados históricos: armazenam evolução (séries temporais, snapshots).
Dados em tempo real/streaming: eventos contínuos (transações em tempo real, detecção de fraude).
Qualidade da informação: dimensões e como interpretar cenários
Qualidade de dados é a adequação do dado ao uso. Em prova, as dimensões mais cobradas incluem completude, consistência e acurácia. Muitas questões descrevem um problema e pedem para identificar a dimensão afetada.
Completude
Definição: grau em que os dados necessários estão presentes (não nulos, não vazios, sem omissões relevantes).
Exemplo: 30% dos clientes sem e-mail ou sem renda informada.
Impacto: inviabiliza contato, segmentação e modelos de risco.
Consistência
Definição: ausência de contradições entre dados relacionados, respeitando regras e padrões.
Exemplo: cliente com data de nascimento 2008, mas classificado como “maior de 18”; ou UF “SP” em um sistema e “São Paulo” em outro sem padronização.
Impacto: relatórios divergentes, regras de negócio quebradas.
Acurácia
Definição: proximidade do dado com a realidade (correção). Um dado pode estar preenchido (completo) e ainda assim estar errado (inacurado).
Exemplo: renda preenchida como 50.000 quando o comprovante indica 5.000; endereço desatualizado.
Impacto: decisões erradas (limite de crédito, oferta inadequada).
Outras dimensões que aparecem em enunciados
Unicidade: ausência de duplicidades (mesmo CPF com dois cadastros).
Atualidade (timeliness): dado está atualizado no tempo necessário (telefone antigo).
Validade: respeita domínio/formato (CPF com dígitos inválidos, data 31/02).
Como classificar problemas de qualidade (passo a passo)
Identifique o sintoma: falta de valor? valor fora do padrão? contradição entre fontes? valor “impossível”?
Compare com a regra: regra de negócio (idade >= 18), regra de domínio (UF em {AC..TO}), regra de integridade (chave única).
Mapeie para a dimensão: ausência → completude; contradição → consistência; errado vs realidade → acurácia; duplicado → unicidade; fora do formato → validade.
Defina ação: padronizar, deduplicar, enriquecer, validar na entrada, reconciliar fontes, criar monitoramento.
Governança de dados e linhagem (data lineage) em nível conceitual
Governança de dados
Conceito: conjunto de papéis, processos e políticas para garantir que dados sejam geridos como ativo, com qualidade, segurança, conformidade e uso adequado.
Elementos típicos: políticas (padrões de cadastro, nomenclatura), papéis (dono do dado, steward), catálogos/dicionários de dados, métricas de qualidade, processos de aprovação de mudanças.
Objetivo prático: reduzir divergências entre áreas, aumentar confiabilidade de relatórios e rastreabilidade.
Linhagem de dados (data lineage)
Conceito: rastreamento da origem do dado, transformações aplicadas e destino final. Responde “de onde veio este número?” e “como foi calculado?”.
Exemplo conceitual: indicador “Receita mensal” no painel → veio da tabela de fatos no DW → carregada a partir de transações do core bancário → passou por regras de filtragem (estornos, status) e agregações.
Por que cai: auditoria, conformidade, explicabilidade de métricas e depuração de erros em relatórios.
OLTP vs OLAP: diferenças essenciais
OLTP (Online Transaction Processing)
Finalidade: suportar operações do dia a dia (inserir/atualizar transações).
Características: muitas operações curtas; alta concorrência; foco em integridade; dados mais detalhados e atuais.
Exemplos: registrar pagamento, abrir conta, atualizar cadastro.
OLAP (Online Analytical Processing)
Finalidade: análise e apoio à decisão (consultas complexas, agregações).
Características: leituras pesadas; consultas longas; foco em histórico; agregações por tempo, produto, canal, região.
Exemplos: receita por agência e mês, inadimplência por faixa de renda.
Como reconhecer em enunciados
Se o texto fala em registrar, atualizar, confirmar, transação, concorrência → tende a OLTP.
Se fala em relatórios, painéis, histórico, agregações, tendências → tende a OLAP.
Data Warehouse: noções e componentes
Data warehouse (DW) é um repositório voltado a análise, integrando dados de múltiplas fontes, com histórico e padronização. Em prova, foque em: integração, orientação a assunto (ex.: crédito, clientes), histórico e suporte a consultas analíticas.
Fontes: sistemas transacionais, arquivos, logs, APIs.
Staging (área de preparo): onde dados chegam para limpeza e transformação.
Camada analítica: tabelas/modelos para consulta (frequentemente dimensional).
Data marts: subconjuntos por área (ex.: marketing, risco), podendo ser derivados do DW.
ETL vs ELT: conceitos e quando cada um aparece
ETL (Extract, Transform, Load)
Ideia: extrai das fontes, transforma antes de carregar no repositório analítico.
Quando é comum: quando a transformação precisa ocorrer fora do DW, ou quando se quer carregar dados já padronizados.
Risco típico: regras espalhadas em pipelines, exigindo boa documentação e governança.
ELT (Extract, Load, Transform)
Ideia: extrai, carrega dados brutos no repositório e transforma dentro dele (aproveitando poder de processamento do ambiente analítico).
Quando é comum: em plataformas analíticas com grande capacidade de processamento, permitindo múltiplas visões a partir do dado bruto.
Ponto de atenção: controle de acesso e qualidade para não expor dado bruto indevidamente.
Passo a passo prático: desenhando um fluxo ETL/ELT (visão de prova)
Defina fontes: transações, cadastro, canais digitais.
Defina chaves e granularidade: por transação? por dia? por cliente?
Regras de qualidade: validações de domínio, deduplicação, padronização de códigos.
Transformações: derivar métricas (valor líquido), normalizar datas, mapear categorias.
Carga: inserir em tabelas dimensionais (dimensões e fatos) e gerar agregações.
Auditoria/linhagem: registrar origem, horário, versão da regra, contagens de registros.
Modelagem dimensional: fato e dimensão para reconhecimento em prova
Conceitos
Tabela fato: armazena eventos mensuráveis (medidas) e chaves para dimensões. Ex.: transações, pagamentos, propostas.
Medidas: valores numéricos analisáveis (valor, quantidade, saldo médio).
Dimensões: descrevem o contexto do fato (quem, quando, onde, como). Ex.: cliente, tempo, agência, produto, canal.
Granularidade: nível de detalhe do fato (por transação, por dia por cliente etc.). É um dos pontos mais cobrados.
Exemplo conceitual de esquema estrela
FATO_TRANSACAO (id_tempo, id_cliente, id_agencia, id_produto, id_canal, valor, quantidade) ligado a DIM_TEMPO, DIM_CLIENTE, DIM_AGENCIA, DIM_PRODUTO, DIM_CANAL.
Como identificar fato vs dimensão (exercício mental)
Se a tabela responde “quanto aconteceu?” → tende a fato.
Se responde “quem/quando/onde/o quê?” → tende a dimensão.
Se tem muitas chaves estrangeiras para descrições e algumas medidas numéricas → fato.
Consultas analíticas básicas: exemplos e leitura de resultado
Consultas analíticas típicas usam agregações (SUM, COUNT, AVG), agrupamentos (GROUP BY) e filtros por período/categoria. Abaixo, exemplos genéricos para reconhecer padrões em prova.
1) Total por mês (tendência temporal)
SELECT t.ano, t.mes, SUM(f.valor) AS total_valor, COUNT(*) AS qtd_transacoes FROM fato_transacao f JOIN dim_tempo t ON t.id_tempo = f.id_tempo GROUP BY t.ano, t.mes ORDER BY t.ano, t.mes;Interpretação: identifica sazonalidade e crescimento/queda mensal.
2) Ranking por agência (comparação)
SELECT a.nome_agencia, SUM(f.valor) AS total_valor FROM fato_transacao f JOIN dim_agencia a ON a.id_agencia = f.id_agencia GROUP BY a.nome_agencia ORDER BY total_valor DESC;Interpretação: compara performance entre unidades.
3) Ticket médio por canal (média por categoria)
SELECT c.nome_canal, AVG(f.valor) AS ticket_medio FROM fato_transacao f JOIN dim_canal c ON c.id_canal = f.id_canal GROUP BY c.nome_canal;Interpretação: canal com maior ticket pode indicar perfil de uso diferente.
4) Participação percentual (share) por produto
SELECT p.nome_produto, SUM(f.valor) AS total_produto, SUM(f.valor) * 1.0 / (SELECT SUM(valor) FROM fato_transacao) AS participacao FROM fato_transacao f JOIN dim_produto p ON p.id_produto = f.id_produto GROUP BY p.nome_produto ORDER BY participacao DESC;Interpretação: produtos que concentram maior parte do volume.
Cenários de qualidade: identificar o problema e a ação
Cenário 1
Um relatório mostra “inadimplência por UF”, mas a mesma UF aparece como “SP”, “S.P.” e “São Paulo”.
Dimensão afetada: consistência (padronização de domínio).
Ação: criar tabela de referência (domínio), padronizar no pipeline, validar na entrada.
Cenário 2
Base de clientes tem CPF preenchido, mas muitos CPFs são inválidos (dígito verificador incorreto).
Dimensão afetada: validade (formato/regra) e pode afetar acurácia.
Ação: validação de CPF, bloqueio/alerta no cadastro, correção assistida.
Cenário 3
Dois sistemas trazem datas diferentes para “data de abertura da conta” do mesmo cliente.
Dimensão afetada: consistência entre fontes.
Ação: definir fonte de verdade (golden record), regras de reconciliação e linhagem.
Cenário 4
Campo “renda” está preenchido para todos, mas muitos valores são claramente incompatíveis com o perfil (ex.: renda 1.000.000 para estudante).
Dimensão afetada: acurácia (e possivelmente validade por regra de negócio).
Ação: regras de plausibilidade, faixas por perfil, auditoria e confirmação documental.
Questões conceituais (estilo prova)
1) Marque a alternativa que melhor descreve OLAP
A) Processamento de transações curtas com alta concorrência
B) Consultas com agregações e análise histórica para apoio à decisão
C) Sistema de mensageria para integração assíncrona
D) Controle de acesso baseado em papéis para aplicações
2) Um dado pode ser completo e ainda assim ter baixa qualidade. Em qual dimensão isso é mais evidente?
A) Completude
B) Acurácia
C) Disponibilidade
D) Escalabilidade
3) Data lineage é mais diretamente associado a:
A) Redução de latência de rede
B) Rastrear origem e transformações de dados até o consumo
C) Criptografar dados em repouso
D) Substituir chaves primárias por chaves naturais
4) Em um DW dimensional, a tabela que armazena medidas e chaves para dimensões é chamada de:
A) Dimensão
B) Fato
C) Staging
D) Catálogo
5) ETL e ELT diferem principalmente em:
A) Se há extração de dados
B) Onde e quando as transformações ocorrem
C) Se o dado é estruturado ou não estruturado
D) Se o banco é relacional
Exercícios de classificação
A) Classifique como OLTP ou OLAP
1. Registrar uma transferência e atualizar saldo em tempo real
2. Calcular total de transações por canal nos últimos 24 meses
3. Atualizar endereço do cliente e validar CEP
4. Comparar inadimplência por faixa de renda e região
B) Classifique a dimensão de qualidade (completude, consistência, acurácia, validade, unicidade)
1. Campo “telefone” vazio em 40% dos registros
2. Mesmo CPF aparece duas vezes com nomes ligeiramente diferentes
3. UF com valor “SaoPaulo” fora do padrão definido
4. Data de nascimento preenchida, mas incompatível com documento
5. “Cidade” aparece como “RJ” em um sistema e “Rio de Janeiro” em outro
C) Classifique como fato ou dimensão (modelagem dimensional)
1. Tabela com colunas: valor_transacao, quantidade, id_cliente, id_tempo, id_produto
2. Tabela com colunas: id_tempo, dia, mes, ano, feriado
3. Tabela com colunas: id_agencia, nome_agencia, uf, cidade
4. Tabela com colunas: id_cliente, faixa_renda, segmento, data_cadastro