Todos os cursos > Concursos > Caixa econômica ::

Preparatório Caixa TI: Fundamentos de dados, analytics e qualidade da informação

Capítulo 16

Tempo estimado de leitura: 11 minutos

Fundamentos de dados e analytics: por que isso cai em prova

Em ambientes bancários, decisões (crédito, fraude, campanhas, risco, eficiência operacional) dependem de dados confiáveis e bem organizados. Em prova, é comum cobrarem definições, diferenças entre ambientes transacionais e analíticos, noções de data warehouse, processos ETL/ELT, modelagem dimensional e critérios de qualidade da informação.

Tipos de dados: classificações úteis para questões

Tipos por estrutura

Estruturados: organizados em tabelas com esquema definido (ex.: cadastro de clientes, contas, transações).
Semiestruturados: possuem marcações/estrutura flexível (ex.: JSON de eventos de navegação, logs com campos variáveis).
Não estruturados: sem esquema tabular (ex.: e-mails, PDFs, áudios de atendimento, imagens).

Tipos por natureza estatística (muito cobrado)

Qualitativos (categóricos): representam categorias. Nominais (sem ordem: UF, tipo de conta) e ordinais (com ordem: classificação de risco A/B/C).
Continue em nosso aplicativo e ...
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Baixar o aplicativo
Quantitativos (numéricos): representam medidas. Discretos (contagens: número de transações) e contínuos (medidas: saldo, valor de compra).

Tipos por uso no tempo

Dados históricos: armazenam evolução (séries temporais, snapshots).
Dados em tempo real/streaming: eventos contínuos (transações em tempo real, detecção de fraude).

Qualidade da informação: dimensões e como interpretar cenários

Qualidade de dados é a adequação do dado ao uso. Em prova, as dimensões mais cobradas incluem completude, consistência e acurácia. Muitas questões descrevem um problema e pedem para identificar a dimensão afetada.

Completude

Definição: grau em que os dados necessários estão presentes (não nulos, não vazios, sem omissões relevantes).

Exemplo: 30% dos clientes sem e-mail ou sem renda informada.
Impacto: inviabiliza contato, segmentação e modelos de risco.

Consistência

Definição: ausência de contradições entre dados relacionados, respeitando regras e padrões.

Exemplo: cliente com data de nascimento 2008, mas classificado como “maior de 18”; ou UF “SP” em um sistema e “São Paulo” em outro sem padronização.
Impacto: relatórios divergentes, regras de negócio quebradas.

Acurácia

Definição: proximidade do dado com a realidade (correção). Um dado pode estar preenchido (completo) e ainda assim estar errado (inacurado).

Exemplo: renda preenchida como 50.000 quando o comprovante indica 5.000; endereço desatualizado.
Impacto: decisões erradas (limite de crédito, oferta inadequada).

Outras dimensões que aparecem em enunciados

Unicidade: ausência de duplicidades (mesmo CPF com dois cadastros).
Atualidade (timeliness): dado está atualizado no tempo necessário (telefone antigo).
Validade: respeita domínio/formato (CPF com dígitos inválidos, data 31/02).

Como classificar problemas de qualidade (passo a passo)

Identifique o sintoma: falta de valor? valor fora do padrão? contradição entre fontes? valor “impossível”?
Compare com a regra: regra de negócio (idade >= 18), regra de domínio (UF em {AC..TO}), regra de integridade (chave única).
Mapeie para a dimensão: ausência → completude; contradição → consistência; errado vs realidade → acurácia; duplicado → unicidade; fora do formato → validade.
Defina ação: padronizar, deduplicar, enriquecer, validar na entrada, reconciliar fontes, criar monitoramento.

Governança de dados e linhagem (data lineage) em nível conceitual

Governança de dados

Conceito: conjunto de papéis, processos e políticas para garantir que dados sejam geridos como ativo, com qualidade, segurança, conformidade e uso adequado.

Elementos típicos: políticas (padrões de cadastro, nomenclatura), papéis (dono do dado, steward), catálogos/dicionários de dados, métricas de qualidade, processos de aprovação de mudanças.
Objetivo prático: reduzir divergências entre áreas, aumentar confiabilidade de relatórios e rastreabilidade.

Linhagem de dados (data lineage)

Conceito: rastreamento da origem do dado, transformações aplicadas e destino final. Responde “de onde veio este número?” e “como foi calculado?”.

Exemplo conceitual: indicador “Receita mensal” no painel → veio da tabela de fatos no DW → carregada a partir de transações do core bancário → passou por regras de filtragem (estornos, status) e agregações.
Por que cai: auditoria, conformidade, explicabilidade de métricas e depuração de erros em relatórios.

OLTP vs OLAP: diferenças essenciais

OLTP (Online Transaction Processing)

Finalidade: suportar operações do dia a dia (inserir/atualizar transações).
Características: muitas operações curtas; alta concorrência; foco em integridade; dados mais detalhados e atuais.
Exemplos: registrar pagamento, abrir conta, atualizar cadastro.

OLAP (Online Analytical Processing)

Finalidade: análise e apoio à decisão (consultas complexas, agregações).
Características: leituras pesadas; consultas longas; foco em histórico; agregações por tempo, produto, canal, região.
Exemplos: receita por agência e mês, inadimplência por faixa de renda.

Como reconhecer em enunciados

Se o texto fala em registrar, atualizar, confirmar, transação, concorrência → tende a OLTP.
Se fala em relatórios, painéis, histórico, agregações, tendências → tende a OLAP.

Data Warehouse: noções e componentes

Data warehouse (DW) é um repositório voltado a análise, integrando dados de múltiplas fontes, com histórico e padronização. Em prova, foque em: integração, orientação a assunto (ex.: crédito, clientes), histórico e suporte a consultas analíticas.

Fontes: sistemas transacionais, arquivos, logs, APIs.
Staging (área de preparo): onde dados chegam para limpeza e transformação.
Camada analítica: tabelas/modelos para consulta (frequentemente dimensional).
Data marts: subconjuntos por área (ex.: marketing, risco), podendo ser derivados do DW.

ETL vs ELT: conceitos e quando cada um aparece

ETL (Extract, Transform, Load)

Ideia: extrai das fontes, transforma antes de carregar no repositório analítico.

Quando é comum: quando a transformação precisa ocorrer fora do DW, ou quando se quer carregar dados já padronizados.
Risco típico: regras espalhadas em pipelines, exigindo boa documentação e governança.

ELT (Extract, Load, Transform)

Ideia: extrai, carrega dados brutos no repositório e transforma dentro dele (aproveitando poder de processamento do ambiente analítico).

Quando é comum: em plataformas analíticas com grande capacidade de processamento, permitindo múltiplas visões a partir do dado bruto.
Ponto de atenção: controle de acesso e qualidade para não expor dado bruto indevidamente.

Passo a passo prático: desenhando um fluxo ETL/ELT (visão de prova)

Defina fontes: transações, cadastro, canais digitais.
Defina chaves e granularidade: por transação? por dia? por cliente?
Regras de qualidade: validações de domínio, deduplicação, padronização de códigos.
Transformações: derivar métricas (valor líquido), normalizar datas, mapear categorias.
Carga: inserir em tabelas dimensionais (dimensões e fatos) e gerar agregações.
Auditoria/linhagem: registrar origem, horário, versão da regra, contagens de registros.

Modelagem dimensional: fato e dimensão para reconhecimento em prova

Conceitos

Tabela fato: armazena eventos mensuráveis (medidas) e chaves para dimensões. Ex.: transações, pagamentos, propostas.
Medidas: valores numéricos analisáveis (valor, quantidade, saldo médio).
Dimensões: descrevem o contexto do fato (quem, quando, onde, como). Ex.: cliente, tempo, agência, produto, canal.
Granularidade: nível de detalhe do fato (por transação, por dia por cliente etc.). É um dos pontos mais cobrados.

Exemplo conceitual de esquema estrela

FATO_TRANSACAO (id_tempo, id_cliente, id_agencia, id_produto, id_canal, valor, quantidade) ligado a DIM_TEMPO, DIM_CLIENTE, DIM_AGENCIA, DIM_PRODUTO, DIM_CANAL.

Como identificar fato vs dimensão (exercício mental)

Se a tabela responde “quanto aconteceu?” → tende a fato.
Se responde “quem/quando/onde/o quê?” → tende a dimensão.
Se tem muitas chaves estrangeiras para descrições e algumas medidas numéricas → fato.

Consultas analíticas básicas: exemplos e leitura de resultado

Consultas analíticas típicas usam agregações (SUM, COUNT, AVG), agrupamentos (GROUP BY) e filtros por período/categoria. Abaixo, exemplos genéricos para reconhecer padrões em prova.

1) Total por mês (tendência temporal)

SELECT t.ano, t.mes, SUM(f.valor) AS total_valor, COUNT(*) AS qtd_transacoes FROM fato_transacao f JOIN dim_tempo t ON t.id_tempo = f.id_tempo GROUP BY t.ano, t.mes ORDER BY t.ano, t.mes;

Interpretação: identifica sazonalidade e crescimento/queda mensal.

2) Ranking por agência (comparação)

SELECT a.nome_agencia, SUM(f.valor) AS total_valor FROM fato_transacao f JOIN dim_agencia a ON a.id_agencia = f.id_agencia GROUP BY a.nome_agencia ORDER BY total_valor DESC;

Interpretação: compara performance entre unidades.

3) Ticket médio por canal (média por categoria)

SELECT c.nome_canal, AVG(f.valor) AS ticket_medio FROM fato_transacao f JOIN dim_canal c ON c.id_canal = f.id_canal GROUP BY c.nome_canal;

Interpretação: canal com maior ticket pode indicar perfil de uso diferente.

4) Participação percentual (share) por produto

SELECT p.nome_produto, SUM(f.valor) AS total_produto, SUM(f.valor) * 1.0 / (SELECT SUM(valor) FROM fato_transacao) AS participacao FROM fato_transacao f JOIN dim_produto p ON p.id_produto = f.id_produto GROUP BY p.nome_produto ORDER BY participacao DESC;

Interpretação: produtos que concentram maior parte do volume.

Cenários de qualidade: identificar o problema e a ação

Cenário 1

Um relatório mostra “inadimplência por UF”, mas a mesma UF aparece como “SP”, “S.P.” e “São Paulo”.

Dimensão afetada: consistência (padronização de domínio).
Ação: criar tabela de referência (domínio), padronizar no pipeline, validar na entrada.

Cenário 2

Base de clientes tem CPF preenchido, mas muitos CPFs são inválidos (dígito verificador incorreto).

Dimensão afetada: validade (formato/regra) e pode afetar acurácia.
Ação: validação de CPF, bloqueio/alerta no cadastro, correção assistida.

Cenário 3

Dois sistemas trazem datas diferentes para “data de abertura da conta” do mesmo cliente.

Dimensão afetada: consistência entre fontes.
Ação: definir fonte de verdade (golden record), regras de reconciliação e linhagem.

Cenário 4

Campo “renda” está preenchido para todos, mas muitos valores são claramente incompatíveis com o perfil (ex.: renda 1.000.000 para estudante).

Dimensão afetada: acurácia (e possivelmente validade por regra de negócio).
Ação: regras de plausibilidade, faixas por perfil, auditoria e confirmação documental.

Questões conceituais (estilo prova)

1) Marque a alternativa que melhor descreve OLAP

A) Processamento de transações curtas com alta concorrência
B) Consultas com agregações e análise histórica para apoio à decisão
C) Sistema de mensageria para integração assíncrona
D) Controle de acesso baseado em papéis para aplicações

2) Um dado pode ser completo e ainda assim ter baixa qualidade. Em qual dimensão isso é mais evidente?

A) Completude
B) Acurácia
C) Disponibilidade
D) Escalabilidade

3) Data lineage é mais diretamente associado a:

A) Redução de latência de rede
B) Rastrear origem e transformações de dados até o consumo
C) Criptografar dados em repouso
D) Substituir chaves primárias por chaves naturais

4) Em um DW dimensional, a tabela que armazena medidas e chaves para dimensões é chamada de:

A) Dimensão
B) Fato
C) Staging
D) Catálogo

5) ETL e ELT diferem principalmente em:

A) Se há extração de dados
B) Onde e quando as transformações ocorrem
C) Se o dado é estruturado ou não estruturado
D) Se o banco é relacional

Exercícios de classificação

A) Classifique como OLTP ou OLAP

1. Registrar uma transferência e atualizar saldo em tempo real
2. Calcular total de transações por canal nos últimos 24 meses
3. Atualizar endereço do cliente e validar CEP
4. Comparar inadimplência por faixa de renda e região

B) Classifique a dimensão de qualidade (completude, consistência, acurácia, validade, unicidade)

1. Campo “telefone” vazio em 40% dos registros
2. Mesmo CPF aparece duas vezes com nomes ligeiramente diferentes
3. UF com valor “SaoPaulo” fora do padrão definido
4. Data de nascimento preenchida, mas incompatível com documento
5. “Cidade” aparece como “RJ” em um sistema e “Rio de Janeiro” em outro

C) Classifique como fato ou dimensão (modelagem dimensional)

1. Tabela com colunas: valor_transacao, quantidade, id_cliente, id_tempo, id_produto
2. Tabela com colunas: id_tempo, dia, mes, ano, feriado
3. Tabela com colunas: id_agencia, nome_agencia, uf, cidade
4. Tabela com colunas: id_cliente, faixa_renda, segmento, data_cadastro

Agora responda o exercício sobre o conteúdo:

Ao construir um indicador analítico no data warehouse e surgir a dúvida “de onde veio este número e quais transformações foram aplicadas até chegar ao painel?”, qual conceito atende diretamente a essa necessidade?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

A linhagem de dados permite rastrear a origem do dado, as regras e transformações aplicadas e o destino final, respondendo como uma métrica foi calculada e apoiando auditoria e depuração.

Próximo capitúlo

Preparatório Caixa TI: Matemática e Raciocínio Lógico para provas

80%

Preparatório Caixa Econômica Federal - Técnico Bancário - Tecnologia da Informação

Novo curso

20 páginas