Posicionamento

A nuvem mudou fundamentalmente a forma como as plataformas de dados são construídas. Onde antes era necessário adquirir, dimensionar e operar servidores por anos, hoje é possível provisionar armazenamento, capacidade computacional e serviços no Microsoft Azure em minutos. Essa liberdade é ao mesmo tempo uma bênção e um risco: uma plataforma de dados Azure pode ser enormemente poderosa, segura e econômica — ou pode se tornar um mosaico confuso e caro. A diferença está na arquitetura e na operação, não nos serviços em si.

É exatamente aqui que está meu foco: construo plataformas de dados no Azure que seguem uma arquitetura clara, são concebidas com segurança desde o início, podem ser implantadas de forma automatizada e cujos custos permanecem gerenciáveis. Minha origem não é exclusivamente o mundo da nuvem, mas décadas de trabalho com SQL Server, data warehouses e pipelines ETL. Essa experiência molda minha perspectiva: uma plataforma na nuvem não é um fim em si mesma, mas um meio para responder questões de negócio de forma confiável.

Em projetos Azure, trabalhei com todo o espectro de serviços de dados: Azure Data Factory para orquestração, Azure Synapse para análise e processamento, Azure Databricks com arquivos Parquet e Delta Lake para grandes volumes de dados, Azure Storage como base do data lake, Entra ID para identidade e acesso, e Key Vault para o gerenciamento seguro de segredos. A isso se somam o Azure DevOps para CI/CD e uma atenção constante aos custos.

Os clientes geralmente me chamam quando um ambiente on-premises existente precisa migrar para a nuvem, quando um ambiente Azure já existente se tornou confuso ou caro demais, ou quando uma nova plataforma precisa ser construída do zero. Em todos esses casos, o desafio está menos nos serviços individuais e mais no modo como eles se encaixam: como ingestão, armazenamento, processamento, segurança e operação se interligam de forma a resultar em uma plataforma confiável e de fácil manutenção?

Ideia central: Uma boa plataforma de dados Azure não é aquela que usa mais serviços, mas aquela que funciona com o menor número possível de componentes claramente delimitados — segura, implantada de forma automatizada e com custos transparentes a qualquer momento.

O que Define uma Plataforma de Dados Azure

Uma plataforma de dados no Azure é composta por vários componentes, cada um com uma função clara. Quem compreende esses componentes e como eles interagem consegue projetar uma plataforma que se adapte ao requisito de negócio real — em vez de combinar serviços aleatoriamente só porque estão disponíveis.

Armazenamento: o data lake como fundação

No centro geralmente está um data lake baseado no Azure Data Lake Storage Gen2. Dados brutos de todas as fontes chegam aqui antes de serem processados. O lake é econômico, praticamente ilimitado em escala e desacopla o armazenamento da capacidade computacional. Exatamente esse desacoplamento é uma das maiores vantagens da nuvem: armazenamento e capacidade computacional podem ser dimensionados e pagos de forma independente.

Orquestração: Azure Data Factory

O Azure Data Factory é o maestro. Os pipelines buscam dados nas fontes, disparam etapas de processamento, tratam erros e controlam o fluxo temporal via triggers. O ADF conecta os componentes sem realizar diretamente o processamento pesado de dados — delega isso aos serviços especializados.

Processamento: Synapse e Databricks

O processamento efetivo de grandes volumes de dados ocorre no Azure Synapse ou no Azure Databricks. O Synapse reúne análise SQL, Spark e pipelines em um único ambiente; o Databricks é a plataforma Spark especializada para transformações complexas e para trabalhar com o Delta Lake. Nos meus projetos, processei dados como arquivos Parquet e Delta, usando tanto pipelines do Synapse quanto notebooks do Databricks.

Segurança e identidade: Entra ID e Key Vault

Identidade e acesso no Azure passam pelo Microsoft Entra ID (anteriormente Azure Active Directory). Segredos como strings de conexão, chaves e certificados não pertencem ao código ou a arquivos de configuração, mas ao Azure Key Vault. Esses dois componentes são a espinha dorsal de uma plataforma segura.

Data Lake (Storage Gen2) como base econômica e escalável
Azure Data Factory como orquestração central
Synapse e Databricks para o processamento efetivo
Delta Lake para transações ACID e historicização no lake
Entra ID e Key Vault para identidade, acesso e segredos
Azure DevOps para deployment automatizado e rastreável

Por que a separação clara de componentes é essencial

A diferença decisiva entre uma boa e uma plataforma Azure arbitrária não está na escolha dos serviços, mas na clareza da divisão de responsabilidades. Cada componente deve ter exatamente uma responsabilidade: o lake armazena, o Data Factory orquestra, os serviços de processamento computam, o Entra ID e o Key Vault protegem. Quando essas funções se misturam — por exemplo, quando lógica de negócio migra para pipelines de orquestração ou segredos ficam em configurações — o resultado é uma plataforma difícil de entender, testar e operar. A separação limpa não é um fim em si mesma, mas a base para a manutenibilidade ao longo dos anos.

Esses componentes também não formam uma estrutura rígida. Quais serviços serão de fato utilizados depende do requisito concreto. Uma iniciativa menor pode não precisar nem de Databricks nem de pools SQL dedicados, bastando o Data Factory, o lake e SQL serverless. Uma iniciativa grande e intensiva em dados, por sua vez, justifica o espectro completo. A arte está em construir apenas a plataforma que o requisito exige — e projetá-la de modo que possa crescer à medida que as necessidades aumentarem.

Arquitetura de Referência no Azure

Ao longo de vários projetos, consolidou-se uma arquitetura de referência que processa dados em etapas claramente separadas: da fonte, pela ingestão no lake, até as camadas de processamento e a entrega para relatórios e BI de autoatendimento. Cada etapa tem uma função definida, e segurança e operação permeiam tudo como preocupação transversal.

Arquitetura de referência Azure da fonte ao BI de autoatendimento

Arquitetura de referência de uma plataforma de dados Azure: fontes, ingestão via Data Factory, Data Lake, processamento no Synapse e Databricks, entrega ao DWH e ao Power BI — flanqueada por segurança e operação.

As fontes vão de bancos de dados on-premises a aplicações SaaS, APIs e entregas de arquivos. O Azure Data Factory lê essas fontes e grava inicialmente os dados brutos inalterados no data lake. Somente ali começa o processamento efetivo, que refina os dados progressivamente até que estejam adequados para análise. O resultado é gravado em um data warehouse relacional ou disponibilizado diretamente como tabelas Delta curadas, sendo consumido pelo Power BI.

A ideia central desta arquitetura é a separação de responsabilidades. A ingestão cuida exclusivamente de trazer dados de forma confiável para o lake. O processamento cuida das regras de negócio e da qualidade. A entrega cuida da forma ideal para cada análise. Essa separação torna a plataforma compreensível, testável e extensível: uma nova fonte afeta apenas a ingestão, uma nova análise afeta apenas a entrega.

Segurança e operação não são um complemento tardio nesta arquitetura, mas uma preocupação transversal que percorre cada etapa: o Entra ID regula quem pode acessar o quê, o Key Vault guarda os segredos, o monitoramento observa cada execução e o controle de custos mantém o consumo sob vigilância.

Ingestão com Azure Data Factory

A ingestão é o primeiro e, sob muitos aspectos, o passo mais delicado: fontes são conectadas que não podem ser alteradas, que estão disponíveis apenas em determinados horários e que não devem ser sobrecarregadas por consultas volumosas. O Azure Data Factory é a ferramenta ideal para tornar essa conexão robusta e rastreável.

Um padrão recorrente é o pipeline parametrizado orientado a metadados. Em vez de criar um pipeline separado para cada tabela, registro os objetos a serem carregados em uma tabela de controle e percorro-os com um único pipeline genérico. Isso reduz consideravelmente o esforço de manutenção e transforma a adição de novas fontes em uma simples etapa de configuração.

JSON · Pipeline do Azure Data Factory com cópia orientada a metadados

{
  "name": "PL_Ingest_Generic",
  "properties": {
    "activities": [
      {
        "name": "LookupTablesToLoad",
        "type": "Lookup",
        "typeProperties": {
          // Le a lista de tabelas a carregar a partir da tabela de controle
          "source": { "type": "AzureSqlSource",
            "sqlReaderQuery": "SELECT SchemaName, TableName, WatermarkColumn FROM ctrl.LoadTable WHERE IsActive = 1" },
          "firstRowOnly": false
        }
      },
      {
        "name": "ForEachTable",
        "type": "ForEach",
        "dependsOn": [ { "activity": "LookupTablesToLoad", "dependencyConditions": [ "Succeeded" ] } ],
        "typeProperties": {
          "items": { "value": "@activity('LookupTablesToLoad').output.value", "type": "Expression" },
          "isSequential": false,   // processamento paralelo das tabelas
          "batchCount": 8,
          "activities": [
            {
              "name": "CopyToLake",
              "type": "Copy",
              "typeProperties": {
                // Extracao incremental baseada na coluna de watermark
                "source": { "type": "AzureSqlSource",
                  "sqlReaderQuery": {
                    "value": "SELECT * FROM [@{item().SchemaName}].[@{item().TableName}] WHERE [@{item().WatermarkColumn}] > '@{pipeline().parameters.LastWatermark}'",
                    "type": "Expression" } },
                // Destino: camada Bronze no data lake em formato Parquet
                "sink": { "type": "ParquetSink" }
              }
            }
          ]
        }
      }
    ],
    "parameters": { "LastWatermark": { "type": "string" } }
  }
}

Um único pipeline genérico carrega qualquer número de tabelas de forma incremental na camada Bronze. Novas fontes são adicionadas exclusivamente pela tabela de controle – sem nenhuma alteração no pipeline.

Um requisito fundamental para mim é que a ingestão seja idempotente e apta ao reprocessamento. Se uma execução for abortada, deve poder ser repetida com segurança sem gerar dados duplicados. O watermark é, portanto, avançado apenas após uma execução bem-sucedida, e a camada Bronze registra exatamente o que foi efetivamente entregue – servindo como ponto de auditoria e reprocessamento.

Lakehouse, Delta Lake e Arquitetura Medallion

O lakehouse combina a flexibilidade e o baixo custo de um data lake com as garantias conhecidas de um data warehouse. A base para isso é o Delta Lake: um formato de armazenamento aberto baseado em Parquet que traz transações ACID, viagem no tempo e gerenciamento de esquema para o data lake. Nos meus projetos Azure, construí dados como arquivos Parquet e Delta e os processei via Databricks.

Arquitetura medallion com camadas Bronze, Prata e Ouro

A arquitetura medallion refina os dados progressivamente: a camada Bronze guarda dados brutos, a Prata guarda dados limpos e conformados, a Ouro guarda dados agregados por negócio e otimizados para BI.

Os dados percorrem três camadas. A camada Bronze guarda os dados brutos inalterados, como foram entregues – é a verdade auditável sobre o que chegou. A camada Prata contém dados limpos, deduplicados e padronizados: tipos de dados são corrigidos, chaves são unificadas e verificações de plausibilidade de negócio são aplicadas. A camada Ouro finalmente contém dados agregados por negócio e otimizados para análise, frequentemente já como esquema estrela.

PySpark · Processamento medallion de Bronze para Prata

# Refina registros brutos da camada Bronze e grava linhas limpas
# e deduplicadas de forma idempotente na camada Prata (Delta Lake).
from pyspark.sql import functions as F
from delta.tables import DeltaTable

# 1) Ler somente novos registros da camada Bronze (incremental)
last_wm = (spark.sql("SELECT MAX(processed_ts) AS wm FROM ctrl.watermark WHERE entity='customer'")
                .collect()[0]["wm"])

bronze = (spark.read.format("delta").table("bronze.customer")
              .filter(F.col("ingest_ts") > F.lit(last_wm)))

# 2) Limpeza e padronizacao
silver = (bronze
          .withColumn("email", F.lower(F.trim("email")))   # normalizacao
          .filter(F.col("customer_id").isNotNull())         # campo obrigatorio
          .dropDuplicates(["customer_id"])                  # deduplicacao
          .withColumn("processed_ts", F.current_timestamp()))

# 3) Upsert idempotente na camada Prata
target = DeltaTable.forName(spark, "silver.customer")
(target.alias("t")
   .merge(silver.alias("s"), "t.customer_id = s.customer_id")
   .whenMatchedUpdateAll()
   .whenNotMatchedInsertAll()
   .execute())

O Delta Lake torna o MERGE transacionalmente seguro e idempotente. Uma execução repetida com os mesmos dados não altera nada – exatamente o comportamento que uma plataforma confiável exige.

O charme da arquitetura medallion está na rastreabilidade: cada registro pode ser rastreado do Ouro pelo nível Prata até a linha bruta do Bronze. Se um número desaparecer em um relatório, a causa é encontrada em poucos passos.

Processamento com Synapse e Databricks

Para o processamento efetivo, o Azure oferece vários caminhos. Qual é o correto depende do volume de dados, do conhecimento da equipe e do ambiente existente. Escolho de forma consciente e justifico a escolha, em vez de seguir uma tendência.

Azure Synapse

O Azure Synapse reúne várias capacidades em um único ambiente: pools SQL dedicados e serverless para análise relacional, pools Spark para processamento distribuído e pipelines integrados que são tecnicamente idênticos aos do Azure Data Factory. O Synapse é uma boa escolha quando a equipe vem do mundo SQL e a análise relacional está em primeiro plano. Os pools SQL serverless permitem consultar arquivos no lake diretamente via T-SQL sem carregá-los previamente – uma ferramenta poderosa para exploração e para camadas de entrega enxutas.

Azure Databricks

O Azure Databricks é a plataforma Spark especializada e minha ferramenta preferida para transformações complexas, grandes volumes de dados e trabalho com o Delta Lake. Os notebooks do Databricks podem ser orquestrados pelo Azure Data Factory, tornando o processamento parte do pipeline global. Em projetos, extraí dados para o Databricks, preparei-os lá como arquivos Parquet e Delta e os disponibilizei para uso posterior.

Um aspecto importante é o custo computacional. Os clusters Spark custam dinheiro enquanto estão em execução. Por isso, cuido para que os clusters sejam encerrados automaticamente quando não estiverem em uso, que os trabalhos rodem em clusters dimensionados adequadamente e que repetições desnecessárias sejam evitadas. Essa disciplina tem impacto decisivo na fatura mensal.

Um exemplo prático da colaboração entre os dois serviços: o Databricks prepara os dados como arquivos Delta e Parquet na área Ouro do lake, e o SQL serverless do Synapse cria visões consultáveis e enxutas sobre eles sem copiar os dados novamente. Assim, a capacidade computacional é paga apenas quando uma consulta efetivamente é executada, evitando um banco de dados permanentemente ativo apenas para a entrega.

SQL · Visão Synapse serverless diretamente sobre arquivos Delta no lake

-- Cria uma visao consultavel diretamente sobre os arquivos Gold no lake.
-- Nenhum dado e copiado; a consulta le os arquivos Parquet diretamente.
CREATE OR ALTER VIEW gold.SalesByMonth AS
SELECT
    -- Receita agregada por mes para entrega ao Power BI
    YEAR(order_date)  AS order_year,
    MONTH(order_date) AS order_month,
    SUM(net_amount)   AS revenue
FROM OPENROWSET(
        BULK 'https://lakedataplatform.dfs.core.windows.net/gold/sales/',
        FORMAT = 'PARQUET'   -- Acesso de leitura direto a camada Gold
     ) AS sales
GROUP BY YEAR(order_date), MONTH(order_date);

Esta visão pode ser consultada diretamente do Power BI. O custo computacional surge apenas quando a consulta é executada – sem um banco de dados permanentemente ativo para a entrega.

Synapse ou Databricks raramente é uma questão de escolha exclusiva. Na prática, eles frequentemente se complementam: o Databricks realiza a transformação pesada nas tabelas Delta, enquanto o SQL serverless do Synapse fornece visões enxutas e consultáveis para a entrega.

Segurança: Entra ID, Key Vault e Rede

Segurança na nuvem não é uma opção, mas um pré-requisito. Uma plataforma de dados frequentemente processa dados sensíveis – dados pessoais, dados financeiros, segredos empresariais. Por isso, planejo a segurança desde o início, não como uma proteção adicional posterior. Três camadas se interligam: identidade, segredos e rede.

Identidade e acesso via Entra ID

Todo acesso – seja por pessoas ou serviços – passa pelo Microsoft Entra ID. Serviços como o Data Factory ou o Databricks recebem uma identidade gerenciada (Managed Identity), com a qual se autenticam junto ao Storage, ao SQL e ao Key Vault. A grande vantagem: não há necessidade de armazenar senhas ou chaves que possam ser comprometidas. O acesso segue o princípio do menor privilégio – cada identidade recebe apenas o que realmente necessita.

Segredos no Key Vault

Strings de conexão, chaves de API e certificados pertencem ao Azure Key Vault, não ao código ou a arquivos de configuração. Pipelines e notebooks buscam segredos em tempo de execução no vault, protegidos pela identidade gerenciada. Dessa forma, nenhum segredo fica exposto no repositório ou em uma configuração.

Python · Leitura segura de um segredo do Key Vault (identidade gerenciada)

# Le um segredo do Azure Key Vault via identidade gerenciada.
# Nenhuma senha e nenhuma chave e armazenada no codigo ou em um arquivo.
from azure.identity import DefaultAzureCredential
from azure.keyvault.secrets import SecretClient

VAULT_URL = "https://kv-dataplatform-prod.vault.azure.net/"

# A identidade gerenciada autentica-se automaticamente junto ao Entra ID
credential = DefaultAzureCredential()
client = SecretClient(vault_url=VAULT_URL, credential=credential)

# String de conexao recuperada em tempo de execucao do vault
sql_conn = client.get_secret("sql-dwh-connection").value

# ... o segredo e mantido apenas na memoria, nunca persistido ...

Por meio da identidade gerenciada, elimina-se toda senha armazenada. Isso não é apenas mais seguro, mas também simplifica a operação, pois nenhuma chave precisa ser rotacionada manualmente.

Rede e isolamento de dados

No nível de rede, os private endpoints garantem que o tráfego entre os serviços não passe pela internet pública. Storage, SQL e Key Vault podem ser protegidos de forma que só sejam acessíveis a partir da rede virtual definida. Em ambientes regulados – como serviços financeiros ou setor público – esse isolamento é frequentemente obrigatório.

CI/CD e Infraestrutura como Código

Uma plataforma na nuvem é software – e software pertence ao controle de versão e a uma entrega automatizada. Em vários projetos, construí pipelines Azure DevOps que implantam código e infraestrutura de forma automática e rastreável. O resultado: cada alteração é documentada, repetível e idêntica em todos os ambientes.

Em uma empresa industrial, migrei pipelines SSIS e construí pipelines Azure DevOps para builds automatizados. Em um projeto de consultoria e MDM, implantei o Azure Data Factory e o Key Vault por meio de fluxos automatizados. O princípio é sempre o mesmo: cliques manuais em portais são a fonte de erros e de diferenças entre ambientes. Descrever a infraestrutura como código elimina essa fonte de erros.

YAML · Pipeline Azure DevOps para Data Factory e deployment Bicep

# Implanta artefatos do Data Factory e a infraestrutura subjacente
# de forma automatizada no ambiente de destino.
trigger:
  branches: { include: [ main ] }

variables:
  - group: dataplatform-prod   # Variaveis/segredos vem do Key Vault

stages:
- stage: Deploy_Infra
  jobs:
  - job: Bicep
    pool: { vmImage: 'ubuntu-latest' }
    steps:
    - task: AzureCLI@2
      displayName: 'Implantar infraestrutura como codigo (Bicep)'
      inputs:
        azureSubscription: 'sc-dataplatform'
        scriptType: bash
        scriptLocation: inlineScript
        inlineScript: |
          az deployment group create \
            --resource-group rg-dataplatform-prod \
            --template-file infra/main.bicep \
            --parameters env=prod

- stage: Deploy_ADF
  dependsOn: Deploy_Infra
  jobs:
  - job: ADF
    pool: { vmImage: 'ubuntu-latest' }
    steps:
    - task: AzurePowerShell@5
      displayName: 'Publicar pipelines do Data Factory'
      inputs:
        azureSubscription: 'sc-dataplatform'
        ScriptType: 'InlineScript'
        Inline: |
          # Publica os templates ARM do Data Factory no ambiente de destino
          ./deploy/Publish-AdfFromArm.ps1 -Environment 'prod'

Infraestrutura e artefatos são implantados no mesmo pipeline. Isso garante que o Data Factory sempre corresponda à infraestrutura em que opera.

Para controle de versão, utilizo o Git nas variantes Azure DevOps, GitHub, GitLab e Bitbucket, dependendo do projeto. Estratégias de branch, pull requests e testes automatizados garantem que as alterações sejam revisadas antes de chegar a ambientes próximos à produção.

O ganho prático dessa disciplina fica evidente quando uma alteração precisa ser revertida. Onde a infraestrutura é descrita como código e cada implantação é versionada, um estado anterior e funcional pode sempre ser restaurado – sem a necessidade de investigar quem alterou o quê no portal e quando. Essa reprodutibilidade não é apenas conveniente em ambientes regulados, mas frequentemente é um requisito obrigatório, pois cada alteração deve ser documentada de forma rastreável e à prova de auditoria.

Controle de Custos e FinOps

A nuvem cobra por consumo. Isso é justo, mas implacável: um recurso computacional esquecido, uma carga completa desnecessária ou um cluster superdimensionado aparecem imediatamente na fatura. Nos meus projetos Azure, implementei deliberadamente medidas de redução de custos – não como uma ação pontual, mas como uma disciplina contínua.

Carga incremental em vez de Full Loads repetidos – menos dados processados, menores custos
Pausar e encerrar automaticamente recursos computacionais fora das janelas de carga
Dimensionamento adequado de clusters e pools SQL em vez de superdimensionamento genérico
Regras de ciclo de vida no Storage: mover dados frios para camadas de armazenamento mais econômicas
Serviços serverless onde a carga é irregular
Transparência de custos via tags, orçamentos e análises por área

Um exemplo concreto: em um prestador têxtil e de serviços, construí processos de carga via Azure Synapse e Data Factory e implementei deliberadamente medidas para reduzir os custos Azure. A alavanca raramente estava em um único item grande, mas na soma de muitas pequenas decisões: o que realmente precisa rodar a cada hora? Quais dados precisam realmente ser recarregados completamente? Quais clusters são realmente necessários durante a noite?

Transparência de custos gera confiança

A alavanca mais eficaz contra custos crescentes não é a frugalidade, mas a visibilidade. Enquanto ninguém souber qual área, pipeline ou relatório está causando quais custos, qualquer medida de economia será navegar às cegas. Por isso, marco os recursos sistematicamente com tags – por área, ambiente e finalidade – para que a fatura mensal possa ser detalhada por centro de custo. Somente essa transparência possibilita uma discussão objetiva sobre se um item é justificado ou não.

Orçamentos e alertas automáticos complementam esse cenário. Quando um ambiente atinge seu orçamento mensal em um momento incomumente antecipado, isso é um sinal a ser investigado – frequentemente um cluster esquecido, uma carga completa acidentalmente acionada ou uma repetição mal configurada está por trás disso. Assim, a surpresa mensal se transforma em uma grandeza controlável. Os custos deixam de ser um tabu e se tornam uma métrica de responsabilidade compartilhada, monitorada tão naturalmente quanto tempos de execução ou taxas de erro.

FinOps não é economizar a qualquer custo, mas controle consciente. Um processamento mais caro pode ser justificado se trouxer valor ao negócio. O que importa é que os custos sejam visíveis, atribuídos e justificados – não que sejam minimizados às cegas.

Operação, Monitoramento e Governança

Uma plataforma que é construída, mas não operada, se deteriora. Por isso, planejo operação, monitoramento e governança desde o início. O objetivo é que a plataforma permaneça compreensível, observável e controlável mesmo anos depois.

Monitoramento e alertas

Cada execução é registrada, cada erro gera uma mensagem rastreável. O Azure Monitor e o Log Analytics coletam a telemetria dos serviços, permitindo ver de relance quais pipelines foram bem-sucedidos, quanto tempo levaram e onde há problemas. Em caso de falha, o sistema de alertas alcança as pessoas certas em tempo hábil.

Governança e catálogo de dados

Com o crescimento da plataforma, a visibilidade se torna fundamental: quais conjuntos de dados existem? De onde eles vêm? Quem pode utilizá-los? O Microsoft Purview e uma abordagem consistente de convenções de nomenclatura, tags e documentação garantem que a plataforma não se torne um cemitério de dados impenetrável. Combinado com o gerenciamento de dados mestres – por exemplo via MDS ou Profisee, com os quais trabalhei em vários projetos – emerge uma base confiável de dados cadastrais.

A governança não é burocracia por si só. É o pré-requisito para que os dados sejam confiados e utilizados. Um número cuja origem ninguém conhece é, com razão, questionado. Um número rastreável até sua fonte e com cálculo documentado gera confiança.

Operabilidade como objetivo de entrega

A operação não começa após a entrega, mas é incorporada desde o início. Valorizo muito que uma plataforma seja suficientemente autoexplicativa para ser assumida por uma equipe que não participou de sua construção. Isso inclui convenções de nomenclatura uniformes em todos os serviços, um esquema coerente para grupos de recursos e ambientes, e uma separação clara entre desenvolvimento, teste e produção. Quem vê um recurso deve conseguir identificar pelo nome a que ele pertence, em qual ambiente está e quem é o responsável.

Um tema recorrente é a capacidade de reprocessamento após interrupções. Os serviços de nuvem são confiáveis, mas não infalíveis: uma fonte fica temporariamente indisponível, um serviço responde mais lentamente que o habitual, uma execução é abortada. Uma plataforma bem construída absorve isso sem se deteriorar. Os pipelines são projetados para poderem ser reiniciados com segurança sem gravar dados duplicados. Idempotência é a palavra-chave: a mesma execução pode ser realizada duas vezes e deve produzir o mesmo resultado.

Por fim, a operabilidade também significa ter uma visão realista do que deve ser feito em uma emergência. Documento quais pipelines são críticos para o negócio, em que ordem devem ser reiniciados após uma falha e quais dados podem ser regenerados se necessário. Essa clareza evita improvisos durante um incidente real.

Migração de Ambientes On-Premises para o Azure

Muitos projetos não partem de uma folha em branco, mas de um ambiente on-premises consolidado que precisa migrar para a nuvem. Essa migração é exigente porque a operação em andamento não pode ser interrompida e anos de lógica de negócio não podem ser perdidos. Minha experiência de décadas com SQL Server, SSIS e data warehouses é uma vantagem real aqui: compreendo tanto o mundo do qual se migra quanto o mundo para o qual se migra.

Migrei pacotes SSIS de versões mais antigas para versões mais recentes do SQL Server e transferi pipelines existentes passo a passo para a nuvem. Uma abordagem faseada se mostrou muito mais adequada do que uma migração big-bang arriscada: primeiro as fontes são carregadas em paralelo também no lake, depois o processamento é gradualmente transferido para a nuvem e, por fim, os relatórios são migrados. Isso mantém o estado anterior disponível a qualquer momento como fallback.

Inventário de fontes, pipelines, relatórios e regras de negócio
Projetar a arquitetura de destino no Azure e alinhá-la com as partes interessadas
Migração faseada com operação paralela em vez de um big bang arriscado
Reconciliação dos resultados antigos com os novos como salvaguarda de negócio
Migração dos relatórios somente após equivalência comprovada
Desativação do ambiente legado como etapa final e controlada

O que realmente exige esforço em uma migração

A transferência técnica dos pipelines raramente é a parte mais difícil de uma migração. O trabalho real está na lógica de negócio que cresceu ao longo dos anos, frequentemente sem documentação completa em lugar algum. Em pacotes SSIS e stored procedures consolidados, escondem-se casos especiais, exceções e premissas silenciosas que funcionam na operação, mas que ninguém mais tem presentes. Revelar essa lógica, compreendê-la e transferi-la de forma limpa para o novo mundo é o verdadeiro valor de uma migração bem pensada.

É aqui que minha longa experiência com SQL Server, SSIS e data warehouses se traduz diretamente em valor. Consigo ler código consolidado, reconstruir sua intenção e avaliar quais particularidades são justificadas pelo negócio e quais são legados acumulados historicamente. Uma migração é sempre também uma oportunidade de organizar – mas apenas onde a organização não distorce o resultado. A reconciliação de resultados entre o antigo e o novo sistema é a salvaguarda que evita que números se alterem silenciosamente durante a migração.

A operação paralela custa temporariamente o dobro de esforço, mas esse investimento quase sempre vale a pena. Enquanto o ambiente antigo e o novo operam lado a lado, qualquer desvio pode ser investigado antes de entrar em produção. Somente quando a nova plataforma comprovadamente entrega os mesmos resultados ao longo de vários ciclos de carga é que a transição é feita – e o ambiente legado é encerrado de forma controlada, não desmontado às pressas.

Abordagem de Trabalho

Uma boa plataforma Azure começa com compreensão, não com serviços. Antes de construir qualquer coisa, adquiro uma visão clara das fontes, dos requisitos de negócio, dos requisitos de segurança e do orçamento. Somente a partir disso emerge a arquitetura correta.

Análise: compreender fontes, requisitos, exigências de segurança e orçamento
Arquitetura: definir serviços, camadas, segurança e quadro de custos
Implementação: construir a plataforma de forma iterativa, com deployment automatizado desde o início
Segurança e testes: proteger identidade, segredos, rede e qualidade dos dados
Operação: monitoramento, governança, controle de custos e documentação

Trabalho de forma remota, híbrida e presencial, sozinho ou como parte de uma equipe existente. Ao longo dos anos, atuei em setores muito diferentes – setor público, serviços financeiros, indústria, varejo e serviços. Essa variedade ajuda, pois padrões consolidados podem ser transferidos sem ignorar as particularidades de cada organização.

Documentação faz parte da entrega para mim. Uma plataforma na nuvem que só seu criador compreende é um risco. Documento arquitetura, conceito de segurança, procedimentos operacionais e estrutura de custos de forma que uma equipe possa operar a plataforma de forma autônoma.

Serviços Típicos Relacionados ao Azure

Dependendo da fase do projeto e da necessidade, assumo diferentes tarefas em torno da plataforma de dados Azure – da arquitetura à implementação e à operação.

Arquitetura e construção de plataformas de dados no Azure
Ingestão com Azure Data Factory, orientada a metadados e apta ao reprocessamento
Lakehouse e arquitetura medallion com Delta Lake
Processamento com Azure Synapse e Azure Databricks (Parquet, Delta, PySpark)
Segurança via Entra ID, identidades gerenciadas, Key Vault e private endpoints
CI/CD e infraestrutura como código com Azure DevOps
Análise de custos e redução direcionada de custos (FinOps)
Migração de pipelines on-premises existentes para o Azure
Monitoramento, governança e documentação técnica
Conexão do Power BI e entrega para BI de autoatendimento

Seja para um primeiro esboço, uma implementação concreta ou a estabilização de uma plataforma já em operação – entro onde a necessidade é maior. Em alguns projetos começo com uma arquitetura na prancheta, em outros assumo uma plataforma incompleta e a levo a um estado sólido. Essa flexibilidade é especialmente valiosa para iniciativas que não partem do zero, mas constroem sobre o que já existe.

O que une todas essas tarefas é uma compreensão abrangente de toda a cadeia – da fonte ao relatório finalizado. É exatamente essa compreensão ponta a ponta que distingue uma plataforma que funciona no papel de uma que sustenta o dia a dia. Quem conhece apenas um trecho da cadeia facilmente otimiza no lugar errado; quem enxerga a cadeia inteira identifica onde está o gargalo real e onde o esforço realmente se justifica.

Projetos de referência selecionados (anonimizados)

Prestador têxtil e de serviços

Azure Synapse · Data Factory · Databricks · Entra ID · Redução de custos

Construção de processos de carga via Azure Synapse e Azure Data Factory, extração para o Databricks como arquivos Parquet e Delta, conexão do Power BI e medidas direcionadas de redução de custos Azure nas áreas de RH, Finanças e Controladoria.

Empresa industrial / mecânica

Migração SSIS · Azure DevOps · YAML

Migração de pacotes SSIS para uma versão atual do SQL Server, transferência para o controle de versão e configuração de pipelines Azure DevOps para builds automáticos, além da concepção de um processo de deployment automatizado.

Engenharia / consultoria · Master Data Management

ADF · Key Vault · Profisee · C#

Implantação do Azure Data Factory e do Key Vault por meio de fluxos automatizados, conexão de processos de gerenciamento de dados mestres e desenvolvimento de workflows e regras de matching.

Cliente do setor público / pesquisa

SQL Server · ETL · anonimização · CI/CD

Evolução de uma plataforma de dados com pipelines ETL, testes funcionais, automação CI/CD e anonimização de dados pessoais em conformidade com a LGPD – como base para uma posterior migração faseada para a nuvem.

Perguntas frequentes sobre a Plataforma de Dados Azure

Synapse ou Databricks – qual é a escolha certa?

Depende do volume de dados, do conhecimento da equipe e do ambiente existente. O Synapse é forte quando a análise relacional e o SQL estão em primeiro plano; o Databricks é a plataforma Spark especializada para transformações complexas e Delta Lake. Na prática, os dois frequentemente se complementam.

Como você garante a segurança na nuvem?

Via Microsoft Entra ID e identidades gerenciadas para acesso, Azure Key Vault para segredos e private endpoints para isolamento de rede. Planejo a segurança desde o início, não como uma proteção adicional posterior.

É possível evitar que os custos Azure fiquem fora de controle?

Sim. Nos meus projetos, reduzi custos de forma deliberada – por meio de carga incremental, pausar automaticamente recursos computacionais, dimensionamento adequado e transparência de custos via tags e orçamentos.

Você consegue migrar um ambiente on-premises existente para o Azure?

Sim. Migrei pipelines SSIS e transferi data warehouses existentes para a nuvem de forma gradual – com operação paralela e reconciliação de resultados em vez de uma migração big-bang arriscada.

Você também constrói a camada de entrega para o Power BI?

Sim. A entrega ao Power BI e ao BI de autoatendimento faz parte da plataforma – incluindo um modelo de dados limpo, segurança em nível de linha e governança.

Como você garante que a plataforma permaneça manutenível?

Por meio de divisão clara de responsabilidades entre serviços, convenções de nomenclatura uniformes, infraestrutura como código e documentação que faz parte da entrega. O objetivo é sempre que uma equipe possa assumir e operar a plataforma de forma autônoma – sem a minha presença.

Os projetos sempre começam do zero?

Raramente. Na maioria das vezes, existe um ambiente on-premises consolidado cuja lógica de negócio não pode ser perdida. É exatamente aqui que minha longa experiência com SQL Server, SSIS e data warehouses é valiosa: compreendo o ambiente antigo e consigo transferi-lo de forma limpa para o novo.

Em quais idiomas podemos trabalhar juntos?

Em português, inglês e alemão – todos fluentes, inclusive em discussões técnicas e de negócio.