Capa do Ebook gratuito Preparatório Caixa Econômica Federal - Técnico Bancário - Tecnologia da Informação

Preparatório Caixa Econômica Federal - Técnico Bancário - Tecnologia da Informação

Novo curso

20 páginas

Preparatório Caixa TI: Fundamentos de dados, analytics e qualidade da informação

Capítulo 16

Tempo estimado de leitura: 11 minutos

+ Exercício

Fundamentos de dados e analytics: por que isso cai em prova

Em ambientes bancários, decisões (crédito, fraude, campanhas, risco, eficiência operacional) dependem de dados confiáveis e bem organizados. Em prova, é comum cobrarem definições, diferenças entre ambientes transacionais e analíticos, noções de data warehouse, processos ETL/ELT, modelagem dimensional e critérios de qualidade da informação.

Tipos de dados: classificações úteis para questões

Tipos por estrutura

  • Estruturados: organizados em tabelas com esquema definido (ex.: cadastro de clientes, contas, transações).

  • Semiestruturados: possuem marcações/estrutura flexível (ex.: JSON de eventos de navegação, logs com campos variáveis).

  • Não estruturados: sem esquema tabular (ex.: e-mails, PDFs, áudios de atendimento, imagens).

Tipos por natureza estatística (muito cobrado)

  • Qualitativos (categóricos): representam categorias. Nominais (sem ordem: UF, tipo de conta) e ordinais (com ordem: classificação de risco A/B/C).

    Continue em nosso aplicativo

    Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.

    ou continue lendo abaixo...
    Download App

    Baixar o aplicativo

  • Quantitativos (numéricos): representam medidas. Discretos (contagens: número de transações) e contínuos (medidas: saldo, valor de compra).

Tipos por uso no tempo

  • Dados históricos: armazenam evolução (séries temporais, snapshots).

  • Dados em tempo real/streaming: eventos contínuos (transações em tempo real, detecção de fraude).

Qualidade da informação: dimensões e como interpretar cenários

Qualidade de dados é a adequação do dado ao uso. Em prova, as dimensões mais cobradas incluem completude, consistência e acurácia. Muitas questões descrevem um problema e pedem para identificar a dimensão afetada.

Completude

Definição: grau em que os dados necessários estão presentes (não nulos, não vazios, sem omissões relevantes).

  • Exemplo: 30% dos clientes sem e-mail ou sem renda informada.

  • Impacto: inviabiliza contato, segmentação e modelos de risco.

Consistência

Definição: ausência de contradições entre dados relacionados, respeitando regras e padrões.

  • Exemplo: cliente com data de nascimento 2008, mas classificado como “maior de 18”; ou UF “SP” em um sistema e “São Paulo” em outro sem padronização.

  • Impacto: relatórios divergentes, regras de negócio quebradas.

Acurácia

Definição: proximidade do dado com a realidade (correção). Um dado pode estar preenchido (completo) e ainda assim estar errado (inacurado).

  • Exemplo: renda preenchida como 50.000 quando o comprovante indica 5.000; endereço desatualizado.

  • Impacto: decisões erradas (limite de crédito, oferta inadequada).

Outras dimensões que aparecem em enunciados

  • Unicidade: ausência de duplicidades (mesmo CPF com dois cadastros).

  • Atualidade (timeliness): dado está atualizado no tempo necessário (telefone antigo).

  • Validade: respeita domínio/formato (CPF com dígitos inválidos, data 31/02).

Como classificar problemas de qualidade (passo a passo)

  1. Identifique o sintoma: falta de valor? valor fora do padrão? contradição entre fontes? valor “impossível”?

  2. Compare com a regra: regra de negócio (idade >= 18), regra de domínio (UF em {AC..TO}), regra de integridade (chave única).

  3. Mapeie para a dimensão: ausência → completude; contradição → consistência; errado vs realidade → acurácia; duplicado → unicidade; fora do formato → validade.

  4. Defina ação: padronizar, deduplicar, enriquecer, validar na entrada, reconciliar fontes, criar monitoramento.

Governança de dados e linhagem (data lineage) em nível conceitual

Governança de dados

Conceito: conjunto de papéis, processos e políticas para garantir que dados sejam geridos como ativo, com qualidade, segurança, conformidade e uso adequado.

  • Elementos típicos: políticas (padrões de cadastro, nomenclatura), papéis (dono do dado, steward), catálogos/dicionários de dados, métricas de qualidade, processos de aprovação de mudanças.

  • Objetivo prático: reduzir divergências entre áreas, aumentar confiabilidade de relatórios e rastreabilidade.

Linhagem de dados (data lineage)

Conceito: rastreamento da origem do dado, transformações aplicadas e destino final. Responde “de onde veio este número?” e “como foi calculado?”.

  • Exemplo conceitual: indicador “Receita mensal” no painel → veio da tabela de fatos no DW → carregada a partir de transações do core bancário → passou por regras de filtragem (estornos, status) e agregações.

  • Por que cai: auditoria, conformidade, explicabilidade de métricas e depuração de erros em relatórios.

OLTP vs OLAP: diferenças essenciais

OLTP (Online Transaction Processing)

  • Finalidade: suportar operações do dia a dia (inserir/atualizar transações).

  • Características: muitas operações curtas; alta concorrência; foco em integridade; dados mais detalhados e atuais.

  • Exemplos: registrar pagamento, abrir conta, atualizar cadastro.

OLAP (Online Analytical Processing)

  • Finalidade: análise e apoio à decisão (consultas complexas, agregações).

  • Características: leituras pesadas; consultas longas; foco em histórico; agregações por tempo, produto, canal, região.

  • Exemplos: receita por agência e mês, inadimplência por faixa de renda.

Como reconhecer em enunciados

  • Se o texto fala em registrar, atualizar, confirmar, transação, concorrência → tende a OLTP.

  • Se fala em relatórios, painéis, histórico, agregações, tendências → tende a OLAP.

Data Warehouse: noções e componentes

Data warehouse (DW) é um repositório voltado a análise, integrando dados de múltiplas fontes, com histórico e padronização. Em prova, foque em: integração, orientação a assunto (ex.: crédito, clientes), histórico e suporte a consultas analíticas.

  • Fontes: sistemas transacionais, arquivos, logs, APIs.

  • Staging (área de preparo): onde dados chegam para limpeza e transformação.

  • Camada analítica: tabelas/modelos para consulta (frequentemente dimensional).

  • Data marts: subconjuntos por área (ex.: marketing, risco), podendo ser derivados do DW.

ETL vs ELT: conceitos e quando cada um aparece

ETL (Extract, Transform, Load)

Ideia: extrai das fontes, transforma antes de carregar no repositório analítico.

  • Quando é comum: quando a transformação precisa ocorrer fora do DW, ou quando se quer carregar dados já padronizados.

  • Risco típico: regras espalhadas em pipelines, exigindo boa documentação e governança.

ELT (Extract, Load, Transform)

Ideia: extrai, carrega dados brutos no repositório e transforma dentro dele (aproveitando poder de processamento do ambiente analítico).

  • Quando é comum: em plataformas analíticas com grande capacidade de processamento, permitindo múltiplas visões a partir do dado bruto.

  • Ponto de atenção: controle de acesso e qualidade para não expor dado bruto indevidamente.

Passo a passo prático: desenhando um fluxo ETL/ELT (visão de prova)

  1. Defina fontes: transações, cadastro, canais digitais.

  2. Defina chaves e granularidade: por transação? por dia? por cliente?

  3. Regras de qualidade: validações de domínio, deduplicação, padronização de códigos.

  4. Transformações: derivar métricas (valor líquido), normalizar datas, mapear categorias.

  5. Carga: inserir em tabelas dimensionais (dimensões e fatos) e gerar agregações.

  6. Auditoria/linhagem: registrar origem, horário, versão da regra, contagens de registros.

Modelagem dimensional: fato e dimensão para reconhecimento em prova

Conceitos

  • Tabela fato: armazena eventos mensuráveis (medidas) e chaves para dimensões. Ex.: transações, pagamentos, propostas.

  • Medidas: valores numéricos analisáveis (valor, quantidade, saldo médio).

  • Dimensões: descrevem o contexto do fato (quem, quando, onde, como). Ex.: cliente, tempo, agência, produto, canal.

  • Granularidade: nível de detalhe do fato (por transação, por dia por cliente etc.). É um dos pontos mais cobrados.

Exemplo conceitual de esquema estrela

FATO_TRANSACAO (id_tempo, id_cliente, id_agencia, id_produto, id_canal, valor, quantidade) ligado a DIM_TEMPO, DIM_CLIENTE, DIM_AGENCIA, DIM_PRODUTO, DIM_CANAL.

Como identificar fato vs dimensão (exercício mental)

  • Se a tabela responde “quanto aconteceu?” → tende a fato.

  • Se responde “quem/quando/onde/o quê?” → tende a dimensão.

  • Se tem muitas chaves estrangeiras para descrições e algumas medidas numéricas → fato.

Consultas analíticas básicas: exemplos e leitura de resultado

Consultas analíticas típicas usam agregações (SUM, COUNT, AVG), agrupamentos (GROUP BY) e filtros por período/categoria. Abaixo, exemplos genéricos para reconhecer padrões em prova.

1) Total por mês (tendência temporal)

SELECT t.ano, t.mes, SUM(f.valor) AS total_valor, COUNT(*) AS qtd_transacoes FROM fato_transacao f JOIN dim_tempo t ON t.id_tempo = f.id_tempo GROUP BY t.ano, t.mes ORDER BY t.ano, t.mes;
  • Interpretação: identifica sazonalidade e crescimento/queda mensal.

2) Ranking por agência (comparação)

SELECT a.nome_agencia, SUM(f.valor) AS total_valor FROM fato_transacao f JOIN dim_agencia a ON a.id_agencia = f.id_agencia GROUP BY a.nome_agencia ORDER BY total_valor DESC;
  • Interpretação: compara performance entre unidades.

3) Ticket médio por canal (média por categoria)

SELECT c.nome_canal, AVG(f.valor) AS ticket_medio FROM fato_transacao f JOIN dim_canal c ON c.id_canal = f.id_canal GROUP BY c.nome_canal;
  • Interpretação: canal com maior ticket pode indicar perfil de uso diferente.

4) Participação percentual (share) por produto

SELECT p.nome_produto, SUM(f.valor) AS total_produto, SUM(f.valor) * 1.0 / (SELECT SUM(valor) FROM fato_transacao) AS participacao FROM fato_transacao f JOIN dim_produto p ON p.id_produto = f.id_produto GROUP BY p.nome_produto ORDER BY participacao DESC;
  • Interpretação: produtos que concentram maior parte do volume.

Cenários de qualidade: identificar o problema e a ação

Cenário 1

Um relatório mostra “inadimplência por UF”, mas a mesma UF aparece como “SP”, “S.P.” e “São Paulo”.

  • Dimensão afetada: consistência (padronização de domínio).

  • Ação: criar tabela de referência (domínio), padronizar no pipeline, validar na entrada.

Cenário 2

Base de clientes tem CPF preenchido, mas muitos CPFs são inválidos (dígito verificador incorreto).

  • Dimensão afetada: validade (formato/regra) e pode afetar acurácia.

  • Ação: validação de CPF, bloqueio/alerta no cadastro, correção assistida.

Cenário 3

Dois sistemas trazem datas diferentes para “data de abertura da conta” do mesmo cliente.

  • Dimensão afetada: consistência entre fontes.

  • Ação: definir fonte de verdade (golden record), regras de reconciliação e linhagem.

Cenário 4

Campo “renda” está preenchido para todos, mas muitos valores são claramente incompatíveis com o perfil (ex.: renda 1.000.000 para estudante).

  • Dimensão afetada: acurácia (e possivelmente validade por regra de negócio).

  • Ação: regras de plausibilidade, faixas por perfil, auditoria e confirmação documental.

Questões conceituais (estilo prova)

1) Marque a alternativa que melhor descreve OLAP

  • A) Processamento de transações curtas com alta concorrência

  • B) Consultas com agregações e análise histórica para apoio à decisão

  • C) Sistema de mensageria para integração assíncrona

  • D) Controle de acesso baseado em papéis para aplicações

2) Um dado pode ser completo e ainda assim ter baixa qualidade. Em qual dimensão isso é mais evidente?

  • A) Completude

  • B) Acurácia

  • C) Disponibilidade

  • D) Escalabilidade

3) Data lineage é mais diretamente associado a:

  • A) Redução de latência de rede

  • B) Rastrear origem e transformações de dados até o consumo

  • C) Criptografar dados em repouso

  • D) Substituir chaves primárias por chaves naturais

4) Em um DW dimensional, a tabela que armazena medidas e chaves para dimensões é chamada de:

  • A) Dimensão

  • B) Fato

  • C) Staging

  • D) Catálogo

5) ETL e ELT diferem principalmente em:

  • A) Se há extração de dados

  • B) Onde e quando as transformações ocorrem

  • C) Se o dado é estruturado ou não estruturado

  • D) Se o banco é relacional

Exercícios de classificação

A) Classifique como OLTP ou OLAP

  • 1. Registrar uma transferência e atualizar saldo em tempo real

  • 2. Calcular total de transações por canal nos últimos 24 meses

  • 3. Atualizar endereço do cliente e validar CEP

  • 4. Comparar inadimplência por faixa de renda e região

B) Classifique a dimensão de qualidade (completude, consistência, acurácia, validade, unicidade)

  • 1. Campo “telefone” vazio em 40% dos registros

  • 2. Mesmo CPF aparece duas vezes com nomes ligeiramente diferentes

  • 3. UF com valor “SaoPaulo” fora do padrão definido

  • 4. Data de nascimento preenchida, mas incompatível com documento

  • 5. “Cidade” aparece como “RJ” em um sistema e “Rio de Janeiro” em outro

C) Classifique como fato ou dimensão (modelagem dimensional)

  • 1. Tabela com colunas: valor_transacao, quantidade, id_cliente, id_tempo, id_produto

  • 2. Tabela com colunas: id_tempo, dia, mes, ano, feriado

  • 3. Tabela com colunas: id_agencia, nome_agencia, uf, cidade

  • 4. Tabela com colunas: id_cliente, faixa_renda, segmento, data_cadastro

Agora responda o exercício sobre o conteúdo:

Ao construir um indicador analítico no data warehouse e surgir a dúvida “de onde veio este número e quais transformações foram aplicadas até chegar ao painel?”, qual conceito atende diretamente a essa necessidade?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

A linhagem de dados permite rastrear a origem do dado, as regras e transformações aplicadas e o destino final, respondendo como uma métrica foi calculada e apoiando auditoria e depuração.

Próximo capitúlo

Preparatório Caixa TI: Matemática e Raciocínio Lógico para provas

Arrow Right Icon
Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.