...

terça-feira, 8 de outubro de 2024

ANÁLISE DE DADOS


BANCO DE DADOS RELACIONADOS: dados com relação entre si num banco de qualquer tamanho e diversos graus de complexidade. FOCO NA NORMALIZAÇÃO DOS DADOS.

- Armazenamento Ordenado e Adaptação às Necessidades do Usuário

- Natureza da Autodescrição: Metadados (os dados a respeito dos dados)  >>  detalhamento de Definição, Descrições e Restrições de cada um dos dados.

- Isolamento entre os Programas e os Dados: Independência e Abstração  >>  dados tem que estar separados das aplicações sistêmicas (tecnologias).

- Suporte a Múltiplas Visões de Dados: várias consultas simultâneas aos dados, permitindo visões diferentes.

- Compartilhamento de Dados e Processamento das Transações: concomitância de ações, havendo recursos de controle sobre os manuseios concomitantes (controle de concorrência).

Estrutura Básica: Tabela de Linhas e Colunas, e Tipos de Dados sendo em Domínios, que é a Natureza do que Pode Ser Armazenado no Banco.


CADA ATIVIDADE REALIZADA POR UM BANCO DE DADOS É UMA TRANSAÇÃO


PROPRIEDADES:

1) ATOMICIDADE: uma transação só pode existir inteira. Para efetivar as transações se usa "COMMIT:" e em caso de falhas se usa "ROLL BACK:"

2) CONSISTÊNCIA: execução tem que partir de um estado consistente para chegar a outro estado consistente, sem hiatos de informação.

3) ISOLAMENTO: cada transação tem que ser independente das demais, mesmo quando elas ocorram simultaneamente.

4) DURABILIDADE: os efeitos da transação devem permanecer no sistema mesmo diante de interrupções exógenas (como uma queda de energia, por exemplo), ou mesmo diante de falhas de sistema.



MODELAGEM DIMENSIONAL: "desamarra" os dados relacionais para aumentar a capacidade de processamento de informação, de forma a permitir Decisões Assertivas e Tempestivas, Decisões Orientadas a Dados.

- Estrutura para facilitar a análise: junta os dados de várias fontes (diferentes Bancos de Dados Relacionais), integra-os num Banco Analítico, e oferece as dimensões para a construção de relatórios.

- TABELA FATO: Não tem Hierarquia. São Eventos, isto é, Informações Quantitativas (por exemplo: valores financeiros de contas), tendo Mais Linhas do que Colunas
- TABELA DIMENSÃO / TABELA DE MÉTRICAS: Tem Hierarquia de informações. Explicita as Métricas, isto é, são Informações Qualitativas, tendo Mais Colunas do que Linhas 

- Tipos de Modelagem: (1) ESQUEMA ESTRELA: a Tabela Fato fica no Centro, com todas as Tabelas Dimensão Diretamente Relacionadas a ela; (2) ESQUEMA FLOCO DE NEVE: nem todas as Tabelas Dimensão estarão diretamente ligadas à Tabela Fato, havendo Tabelas Dimensão ligadas diretamente entre si, e só uma das quais ligada à Tabela Fato.

> MODELAGEM RELACIONAL  >>  DADOS NORMALIZADOS  >>  BAIXA REDUNDÂNCIA
> MODELAGEM DIMENSIONAL  >>  DADOS DESNORMALIZADOS  >>  ALTA REDUNDÂNCIA



PROCESSAMENTO ANALÍTICO ONLINE (Ferramentas OLAP): dá apoio aos processamentos analíticos para a tomada de decisão, trabalhando a Nível de Detalhamento para permitir visões diferentes dos dados.

- OPERAÇÃO DRILL DOWN: permite uma Navegação Diminuindo a Granularidade e oferecendo mais detalhamento.

OPERAÇÃO DRILL UP (Roll Up): permite uma Navegação Aumentando a Abstração, diminuindo o nível de detalhes com Informações Mais Agrupadas sendo oferecidas.

- OPERAÇÃO DRILL ACROSS: permite Pular Elementos Dentro da Mesma Dimensão

OPERAÇÃO DRILL THROUGH: permite Passar Informações Entre Dimensões, de uma para outra, e cruzá-las.

- OPERAÇÃO SLICE N' DICE: oferece a capacidade de Fatiar Informações em uma Dimensão Fixada, ou seja, travando uma variável e permitindo variar outras (é a Operação Slice: extrair um plano de dentro da área do cubo), ou fixando mais de uma variável e permitindo variar as outras (é a Operação Dice: extrair um cubo menor de dentro da área do cubo maior).

- OPERAÇÃO PIVOT: realizar Rotações, fazendo várias referências dimensionais para permitir a criação de Combinações Variadas.

Em Resumo: Operações dentro de um Cubo de Informações para (1) Detalhar (Drill Down); (2) Agrupar (Drill Up); Fluir na Dimensão (Drill Across); (4) Fluir Entre Dimensões (Drill Through); (5) Fazer Combinações (Slice n' Dice); e (6) Permitir Combinações Dinâmicas (Pivot).



DATA WAREHOUSE: Repositório onde são armazenados todos os dados, e organizados para uma produção eficiente na geração de informações.

- Orientação por Assunto, Não Sendo Volátil: Não há Inserções, Exclusões ou Alterações, é somente consulta, com as alterações tendo que ser feitas na origem do dado (da informação). É INTEGRADO, unindo os dados de todas as diferentes fontes, e TEM DADOS HISTÓRICOS, referentes ao acúmulo de informações no tempo.

SISTEMAS PRIMÁRIOS (Origem, onde pode haver Inserções, Exclusões ou Alterações) >> STAGE AREA (Armazenamento Temporário): Seleção > Extração > Transformação > Integração > Carga >> ENTERPRISE DATA WAREHOUSE (DW) >> OPERATIONAL DATA STORE >> DATA MART

* A Carga de Dados nem sempre sofre Transformação antes de ser carregada no Depositório de Destino. Enquanto as Extrações e as Cargas são Obrigatórias, a Transformação não necessariamente precisa ocorrer.

* Os Dados Não Estruturados só são convertidos em Dados Estruturados quando a carga for no DW. Se a carga for no DATA LAKE, não há estruturação de dados (dados salvos são brutos).

- Característica dos Dados Informacionais ou Analíticos: (1) seu conteúdo é formado por valores sumarizados, calculados e integrados de várias fontes; (2) sua organização é por assuntos ou por negócios; (3) seu uso é estruturado em fatos e dimensões, com processamento analítico e preditivo; e (4) seu tempo de resposta, por se tratar de análises complexas, pode ser grande.

* A Natureza dos Dados Analíticos é ESTÁTICA (até que haja a atualização dos dados, de tempos em tempos). A Natureza Dinâmica se refere aos Dados Operacionais ou Transacionais.



DATA MINING (Mineração de Dados): identifica os Padrões de Dados que estão armazenados nos Repositórios

- Motivos: PREVISÃO, IDENTIFICAÇÃO, CLASSIFICAÇÃO ou OTIMIZAÇÃO

- Atributos Numéricos ou Categóricos. NÃO PODEM SER ALEATÓRIOS.

ATRIBUTOS NUMÉRICOS: INFORMAÇÕES QUANTITATIVAS que podem ser Finitas (DISCRETAS) ou Infinitas (CONTÍNUAS)

ATRIBUTOS CATEGÓRIOS: INFORMAÇÕES QUALITATIVAS que podem ser Sem Lógica Ordenada (NOMINAL) ou Com Lógica Ordenada (ORDINAL)

- Tipos de Análise: (1) ANÁLISES DESCRITIVAS (são uma fotografia do presente: É O QUE ACONTECEU); (2) ANÁLISES DIAGNÓSTICAS (são as relações de causas e consequências: É O PORQUE ACONTECEU); (3) ANÁLISES PREDITIVAS (são as quem tentam entender o futuro: É O QUE IRÁ ACONTECER); e (4) ANÁLISES PRESCRITIVAS (são as previsões das consequências: É O QUE DEVO FAZER).

> ANÁLISES PREDITIVAS (Supervisionadas) são de CLASSIFICAÇÃO (definições e categorizações) e de REGRESSÃO (apontamento de tendências)

ANÁLISES PRESCRITIVAS (Não Supervisionadas) são de AGRUPAMENTO (construção das semelhanças e dos grupos de categorias) e de ASSOCIAÇÃO (construção de relações)


* Todas trabalham com ALGORITMOS

* Detecção de Anomalias: dados fora da curva, que são aqueles pontos que destoam do comportamento dos demais. São ou OUTLIERS ou ERROS (os quais podem ter intenção de fraude)



PROCESSO CRISP-DM:

ENTENDIMENTO DO NEGÓCIO  >>  ENTENDIMENTO DOS DADOS  >> MODELAGEM (Construção de Modelos)  >>  AVALIAÇÃO (Testes de Avaliação)  >>  IMPLEMENTAÇÃO (Execução do Processo)

FLUÊNCIA DE DADOS: disponibilização universal para todos aqueles para os quais os dados tenham relevância... MELHORA DA EFICIÊNCIA E DA TRANSPARÊNCIA... ESTÍMULO À CULTURA DE APRENDIZADO

GOVERNANÇA DE DADOS: políticas para o tratamento de dados

- Data Stewardship: GERENCIAMENTO PARA TER DADOS PRECISOS, DISPONÍVEIS, SEGUROS E EM CONFORMIDADE COM AS LEIS E REGULAMENTOS  >>  Corretos Coleta, Armazenamento, Uso e Compartilhamento da Informação.



SEGURANÇA DE DADOS:

Conceitos Gerais:
- Internet: rede que proporciona a união de bilhões de dispositivos, cada um deles possuindo 1 ou + "endereços IP" (se estiver conectado em mais de uma rede ao mesmo tempo, haverá um IP diferente para cada rede de conexão)
- Intranet: é uma rede local de conexões de dispositivos circunscrita aos limites internos de acesso de uma instituição
- Deep Web: rede na qual os conteúdos armazenados não são indexados, por isto sendo difícil encontrá-los e auditá-los, como o conteúdo não é indexado, não é acessível por ferramentas de busca, com seu conteúdo sendo compartilhado diretamente entre os usuários através de links
- Dark Web: é um subconjunto da Deep Web
Firewall: ferramenta, recurso, do Sistema Operacional Windows que impede o acesso de usuários não autorizados, controlando o fluxo de dados de entrada e de saída da rede, filtrando os "endereços IP". Funciona como um filtro, restringindo o tráfego de mensagens através de regras restritivas

Troca de Mensagens: serviços de endereço de correio eletrônico (e-mail) usa 2 protocolos, um para Envio de Mensagens, um servidor de saídas (SMTP) e um para Recebimento de Mensagens, um servidor de entradas (POP ou IMAP)

Mecanismo de Busca (Google):
- maiúsculas, minúsculas, acentuação e pontuação não interferem nos resultados de buscas
- sinal "+" para adicionar na busca já foi abolido, tendo sido descontinuado, mas o sinal "-" para excluir palavra ou trecho na busca, continua sendo utilizado, não podendo, no entanto, haver espaço entre o sinal e a palavra a ser excluída da busca
- entre 'aspas duplas' a busca é literalmente a combinação e a ordem das palavras colocadas entre aspas
- ferramentas de restrição: "site:" e "filetype:" (sempre tem que utilizar os dois pontos)

Malware: software malicioso com o propósito de causar danos, perturbar o funcionamento ou obter acesso não autorizado a um computador
Spyware: visa coletar informações sem consentimento, subtipos:
>> Adware: exibe anúncios indesejados no computador, na maioria das vezes em forma de pop-ups
>> Keylogger: faz o rastreamento e o compartilhamento das teclas digitadas (para roubo de senhas)
>> Screenlogger: faz o rastreamento e o compartilhamento de telas para visualização das teclas digitadas em teclados virtuais (para roubo de senhas)
> Ransomware: invasão que bloqueia o acesso a dados, criptografando-os, e exigindo um pagamento para a restauração do acesso, através da disponibilização após o "pagamento de resgate" da chave para descriptografar
> Backdoor: invasão que cria uma porta de acesso secreta (uma "porta dos fundos", o que dá o nome ao termo) através da qual é feita ou a extração de dados ou o controle remoto da máquina
> Vírus: arquivo que se replica e se propaga, espalhando-se entre computadores para prejudicar o seu funcionamento e o deixar mais vulnerável a invasões
> Trojan ("Cavalo de Tróia"): tipo de malware que se disfarça de software legítimo. Arquivos Trojan podem ser um spyware, um backdoor, ou destrutivos

* A características de todos os Malware é que eles necessitam interação dos usuários para se propagar
* Proxy é um Servidor utilizado para a distribuição de Malware
* Programa AntiMalware do Windows: Defender

Worm (que na tradução é "verme"): software malicioso que se replica e se propaga sem necessitar da interação de usuários, atuando de forma autônoma, sem a necessidade de que um usuário abra um arquivo ou um link contaminado, exploram falhas de segurança de aplicativos ou de sistemas operacionais

Engenharia Social: é a arte de ludibriar pessoas, uma técnica de manipulação que explora o comportamento humano para obter informações através da indução de falhas de segurança para execução de fraude
> Phishing Scam: tentativa de fraude para obter informações de segurança de forma ilegal para realizar desvios financeiros de contas bancárias
> DoS: Ataque de Negação de Serviço, utilizado para fazer um sistema parar de funcionar
DDoS: Ataque de Negação de Serviço Distribuído, utilizado para fazer um sistema parar de funcionar (realizado por várias máquinas ao mesmo tempo através de Botnets ("Redes Zumbis")
> Sniffing: prática de captura ilegal de tráfego de dados de uma rede, "farejando" e capturando dados como: "endereço IP", portas de acesso ou protocolos
> Spoofing: ataque a uma rede que gera clonagem de informações, falsificando "endereços IP" e endereços de e-mail
> Defacement: invasão a um site para alteração de informações, modificando as informações disponibilizadas (é o mais tradicional ataque hacker)
> Phreaking: ataque hacker associado à invasão de telefones celulares, restrito ao universo de Telecom


Nenhum comentário:

Postar um comentário