DataProfiler Enterprise

Análise de Qualidade e Perfilamento de Dados processando Gigabytes com consumo mínimo de RAM.


Solução definitiva para Big Data em ambientes com Hardware Limitado

🚀 Alta Performance

Esqueça o erro Out of Memory. Nossa arquitetura lê arquivos maiores que a RAM disponível, utilizando buffers inteligentes e I/O não bloqueante. Processa 10GB com apenas 512MB de RAM.

🛡️ SLA Automático

O sistema classifica automaticamente a qualidade das colunas (Ouro, Prata, Bronze) calculando a densidade de informação e consistência em tempo real.

👁️ Segurança & LGPD

Detector de PII (Dados Pessoais) integrado. O sistema varre e alerta sobre CPF, E-mails e Cartões de Crédito expostos.

📦 Single Binary

Zero dependências. O Backend (Go) e o Frontend (React) são compilados em um único arquivo executável .exe.

🧠 Inferência Inteligente

Esqueça o mapeamento manual. O algoritmo de Type Inference analisa amostras dos dados para detectar tipos automaticamente.

📊 Interface & Estatísticas

Frontend em React + Material UI. DataGrid com paginação nativa e estatísticas (Média, Desvio Padrão) em tempo real.




A Engenharia por trás do Streaming

O diferencial do DataProfiler é a arquitetura Producer-Consumer. O dado flui através de canais concorrentes sem nunca ser carregado totalmente na memória.


graph LR
    %% --- Definição dos Nós ---
    A[Arquivo CSV Massivo] -->|Stream Leitura| B(Go Reader / Buffer);
    B -->|Chunks de Dados| C{Canal de Distribuição};

    %% Workers paralelos
    C -->|Worker 1| D[Validação de Tipos];
    C -->|Worker 2| E[Regex PII];
    C -->|Worker 3| F[Estatística];

    %% Agregação
    D & E & F -->|Agregação| G[Relatório JSON];
    G --> H[Dashboard React];

    %% --- APLICAÇÃO DE CLASSES CSS EXTERNAS ---
    %% Isso vincula os nós às regras que criamos no home.css
    %% Não definimos cores aqui. O CSS controla tudo.

    class A,B source;
    class C,D,E,F,G process;
    class H target;

    %% Apenas removemos o preenchimento padrão da linha para o CSS pintar
    linkStyle default fill:none;
Figura 1: Fluxo de Dados na Arquitetura Producer-Consumer

Jornada de Evolução

⚙️ Fase 1: O Motor Matemático

  • Core estatístico de alta precisão (Go)
  • Inferência de Tipos com Regex Engine
  • Arquitetura In-Memory (MVP)

🌊 Fase 2: Streaming & Robustez

  • Pipeline de Leitura (Channels)
  • Gestão de Memória (Sync.Pool)
  • Observabilidade (Slog & Pprof)

🎨 Fase 3: Experiência Enterprise

  • Interface Material UI (DataGrid)
  • Feedback Visual (SSE Real-time)
  • Empacotamento Docker & Embed Binary
🔮

O Futuro (Roadmap)

  • Persistência (SQLite/Postgres)
  • Cardinalidade (HyperLogLog)
  • Exportação de Relatórios PDF

👷 Junte-se ao Desenvolvimento

Este projeto segue padrões rigorosos de engenharia. Quer contribuir com código ou documentação? Confira nosso Guia de Estilo e Padrões de Commit.

Ler Guia de Contribuição Ver no GitHub