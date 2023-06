Já falamos bastante aqui no blog sobre o conceito de “fusion teams” e sobre o modelo de entrega democratizado. A pressão por um modelo de entrega de soluções tecnológicas que seja mais rápido, e que possa se adaptar mais facilmente a mudanças de contexto e prioridade, tem levado várias empresas a acelerar adoção de métodos ágeis e a se tornarem mais “produtizadas”.

Nada disso é viável se não houver uma infraestrutura que funcione com o mesmo mantra: velocidade, flexibilidade, escalabilidade, sem abrir mão de resiliência e segurança.

Nesse mês, vamos inovar mais uma vez no formato. Vou compartilhar com vocês o caso do Sicredi. Conversei com o Cleber faz algumas semanas e fiquei muito impressionado com o trabalho que o Sicredi está fazendo para modernizar sua infraestrutura.

Convido a todos para conhecer um pouco dessa história na entrevista abaixo!

Queria que você começasse se apresentando. Fale um pouco sobre sua formação, sua carreira, sua progressão no Sicredi, seus interesses pessoais e profissionais.

Quanto à minha formação, sou graduado em Administração com ênfase em Análise de Sistemas (FARGS-RS), pós-graduado em Gestão Estratégica de TI (PUC-RS) e Mestre em Gestão de Negócios (UNISINOS-RS) com titulação também de Mestre em Administração pela Universidade de Poitiers-FR. Desenvolvi e consolidei minha carreira no próprio Sicredi, onde iniciei aos 18 anos como estagiario em uma Unidade Regional de Processamento de Dados em Passo Fundo – RS no ano de 2000. Naquela época nossos sistemas ainda eram off-line e o processamento de dados ocorria de maneira descentralizada através da troca de arquivos entre a Unidade de Processamento Central (em Porto Alegre), Unidades Regionais (uma em cada cooperativa do sistema) e as agências de cada uma dessas cooperativas. Lá participei do momento de virada que iniciou em 2001 e concluiu em 2003 com a centralização de todo o processamento em Porto Alegre e a utilização do sistema de maneira on-line por todas as nossas agências.

Tendo findado essa atuação regional de processamento de dados, me transferi para a Confederação Sicredi (Porto Alegre) em 2004 para atuar na área de Suporte de Sistemas, onde suportávamos todo o atendimento interno dos colaboradores no que se refere ao uso dos sistemas de negócio do Sicredi. Nessa área fui líder técnico, supervisor e coordenador, iniciando aí minha jornada de liderança ainda no ano de 2008. Entre 2009 e 2011 coordenei a área de Monitoramento de TI, onde executamos nossos primeiros projetos de monitoramento, trazendo o ferramental e processos para implementar essa disciplina já focada em monitoramento dos sistemas de negócio. Conceitos como correlação de eventos, console única de eventos e APM foram trazidos ao Sicredi nessa época.

Entre 2012 e 2014 passei a liderar times na área de Plataforma de TI, onde eram suportadas as mais diversas aplicações de negócio. Sob minha liderança nessa época estavam equipes que suportavam sistemas críticos de negócio, como por exemplo, Mobile, Internet Banking, Autorização de Cartões, etc.. Essa foi minha primeira experiência liderando times de alto nível de senioridade e complexidade na atividade. Foram inúmeros desafios ao longo desse período, como por exemplo, migração de plataforma do Internet Banking, atualização do sistema de autorização de cartões, primeiras iniciativas de automação de deploy, etc.

Em 2014 assumi a gestão da área de Operações de TI, onde centralizamos todas as nossas equipes de monitoramento, processamento e suporte end user. Nessa área desenvolvemos alguns grandes projetos importantes para a organização, como o projeto de “Ambiente de trabalho digital”, onde entre as principais entregas colocamos o Office 365 para todo o Sicredi. Mais do que a complexidade técnica do projeto, tivemos que vencer diversas barreiras no que se refere a compliance e segurança, pois de fato esse era o primeiro projeto que levava o Sicredi para a nuvem, sendo o Sicredi um dos pioneiros no segmento financeiro a fazer esse movimento. Outro projeto relevante nessa área foi o de automação na cadeia de processamento de dados, pois à época tinhamos diversas ferramentas e muitos processos manuais, os quais geravam falhas operacionais e atrasos na cadeia de processamento e liberação dos sistemas para uso nas agências. Nesse projeto trouxemos a ferramenta do Control-M para a organização e automatizamos todos os tipos de atividades manuais que tínhamos (ex: movimentação de arquivos, conferência de relatórios, conciliações, etc.), tendo resultados expressivos de redução de erros e estabilidade de nossa cadeia de processamento. O terceiro e último projeto nessa área esteve relacionado à infraestrutura de agências e foi desafiador pela complexidade envolvida na governança do sistema, visto que são mais de 100 cooperativas e estas têm autonomia de atuação. Nesse projeto não só definimos todos os padrões para infraestrutura e segurança das agências (desde equipamentos quanto processos), como também implementamos mecanismos de acompanhamento, objetivos de evolução e incentivos à adesão com redução de % de contribuição a fundos garantidores corporativos (quanto mais aderente ao padrão menor o % de contribuição ao fundo garantidor de transações eletrônicas por exemplo, pois o risco de falha é menor nesse contexto).

Em 2017 o Sicredi inicia sua jornada de transformação digital e fui convidado a liderar o que seria o Backbone Operacional. Aqui o desafio era sair do papel em branco e repensar toda a operação e processos da nova plataforma que estava sendo construída. Nesse projeto participei da primeira construção do modelo de atendimento CX (Customer Experience), do primeiro processo de onboarding digital do Sicredi (100% automatizado), da implantação de novos canais de comunicação com os associados (Chat e WhatsApp), do início dos trabalhos com cloud, devops e automação de Infraestrutura. Até 2019 a plataforma Digital atuava em estrutura separada do restante da empresa e liderei todos esses temas, repassando-os gradativamente à outras áreas até me dedicar exclusivamente às questões relacionadas a infraestrutura e cloud no início de 2020. A partir desse momento atuei para consolidarmos nossa visão (legado e digital) e construirmos a área de engenharia de plataforma, a qual tinha foco de desenvolver a infraestrutura como produto e acelerar a entrega de software. Venho conduzindo este tema desde então e recentemente, em maio/2023 assumi a liderança de todo o tema de infraestrutura no Sicredi.

Como pode perceber pelas minhas experiências, automação é algo que trabalhei em diferentes áreas/momentos, então é algo que acredito bastante e tento trazer a todos os contextos que atuo. É também um tema frequente em meus estudos.

Quais foram os problemas que o SICREDI enfrentou (ou enfrenta) para implementar esse modelo de entrega democratizado? Fale um pouco do cenário no início da jornada de vocês.

Eu diria que algumas coisas nos auxiliaram nessa construção, que foi realizada a muitas mãos desde 2017:

O primeiro fato é que o Sicredi iniciou cedo na mudança do mindset e organização para o ágil (ainda antes de 2017). Aos poucos isso trouxe necessidade de evoluir a arquitetura dos sistemas, trazer novas soluções como containers e microserviços, organizar o método de trabalho, capacitar o time de infraestrutura, conectar engenharia de software e infraestrutura, etc.. Paralelo a isso, em 2017 o Sicredi iniciou sua jornada de transformação digital, a qual iniciou do papel em branco mesmo, então tanto as soluções de negócio, experiências como os processos podiam ser reformulados, abrindo bastante espaço e estimulando a inovação interna;

Em segundo poderia citar é que a construção se deu de maneira isolada às operações legadas, ou seja, se separou uma equipe para atuar exclusivamente nisso, tanto dentro da plataforma digital quanto dentro da área de infraestrutura. Isso propiciou foco e tempo para construção;

Em terceiro está um ponto que se conecta ao primeiro, que se refere a oportunidade de desenvolver a construção de maneira incremental. O que temos hoje não foi entregue em um único pacote, mas sim construído e integrado aos poucos com uma visão de foco e valor para o usuário. Talvez nem sempre com esse olhar, mas com olhar no que era mais dor para a infraestrutura em atividades repetitivas e de grande volume;

Outro fator que considero relevante é a adoção de plataformas open source, pois isso nos trouxe não só velocidade na implantação como também flexibilidade na construção das jornadas que queríamos entregar aos usuários.

Esses 4 fatores foram os que mais contribuíram certamente para que pudéssemos construir esse caminho de maneira consistente e relativamente “tranquila”.

No que se refere a problemas, poderia citar que o fato de termos iniciado construções paralelas (Infraestrutura e Plataforma Digital) acabou por nos atrasar em algumas coisas, pois quando decidimos unificar a visão(em 2020) precisamos investir bastante tempo para discutir padrões e ferramentas, tempo que poderia ter sido investido para incrementar nossas ofertas. A imagem abaixo da uma visão da jornada paralela que percorremos entre 2017 e 2023 e alguns exemplos de definições e temas tratados ao longo desse período.

Descreva o modelo adotado hoje na área de infraestrutura & operações do SICREDI, como estão estruturados os times de plataforma, quais serviços são entregues aos times de desenvolvimento, como foi o processo de padronização das diferentes tecnologias que eram adotadas na empresa, como são definidos e negociados os roadmaps das plataformas, os conflitos e interdepências que naturalmente surgem tanto entre os times de I&O quanto com os “clientes”, os times de desenvolvimento.

No que se refere à estrutura atuamos da seguinte forma:

Partimos da visão que o time de desenvolvimento/produto é responsável por construir e manter a operação, tendo o papel do Engenheiro de Devops para apoiá-lo nessa jornada. Aqui o engenheiro de devops é o nosso representante da plataforma nos times e nos auxilia para que a plataforma seja utilizada corretamente como também nos apoia com feedbacks dos usuários.

Na parte de plataforma seguimos alguns conceitos core, os quais estão listados na esquerda da imagem. Basicamente buscamos manter todas as responsabilidades que sempre foram de infraestrutura (Segurança, eficiência, escalabilidade e resiliência), como também adicionamos o conceito de via pavimentada, ci/cd, jornadas de usuário e self-service.

No que se refere a estrutura dos times. A primeira camada da plataforma que é de automação representa diretamente um time, o qual mantém todas as ferramentas que dão suporte a jornada do usuário. É esse time que mantém nosso portal do desenvolvedor (a dev-console). Nesse time temos profissionais com skill tanto de engenharia de software como de infraestrutura. Já na camada de plataforma, temos diversos times organizados por especialidades, podendo suportar um ou mais componentes da plataforma. Bancos de dados e cache, por exemplo, tem alguns times, pois temos uma grande quantidade de bancos e tecnologias utilizadas. Containers, Observabilidade, Integração de Dados, Segurança e identidades são outros times, cada um em seu contexto. Stream e Gateway de API compõe outra equipe, assim como o agrupamento de operações de cloud que atua na entrega de ofertas de produtos disponibilizados diretamente de cloud. Todos os times que mantém as plataformas são responsáveis por manter os conceitos core dentro de seu contexto, ou seja, garantir segurança, eficiência, resiliência, escalabilidade e uma via pavimentada por padrões e aceleradores. O papel do time vai até entregar sua plataforma como API para que o time de automação possa integrar ela na jornada do usuário do desenvolvimento.

No que se refere à padronização do uso da plataforma, as maiores dificuldades foram criadas na própria construção, conforme comentei na pergunta 2 em relação ao fato de termos construído em paralelo e depois termos esforços para padronizar. No que se refere ao uso do que construímos, hoje ele é mandatório, ou seja, os times de desenvolvimento não têm autonomia para criar recursos de infraestrutura, seja em cloud ou no datacenter, logo, toda a construção de software em arquitetura de microserviços passa por nossa plataforma e segue os padrões. É obvio que exceções são tratadas, como por exemplo quando algum produto de negócio é comprado no mercado, pois este não se enquadra no escopo da plataforma e é tratado em outra esteira de entrega. A plataforma tem escopo limitado a suportar todo o software construído/customizado no Sicredi.

No que se refere aos roadmaps da plataforma, temos trabalhado cada vez mais para construir e priorizar com a visão de nossos clientes (times de desenvolvimento/produto). A figura abaixo representa como entendemos a construção de nosso roadmap como plataforma.

Como pode observar pela imagem, temos imputs de diferentes contextos, sendo:

O próprio time de engenharia de plataforma, pois como expliquei anteriormente, o time mantém funções básicas que sempre foram responsabilidade de infraestrutura, como por exemplo, escalabilidade, resiliência, logo evoluções nessa linha sempre terão origem interna dos times da plataforma, assim como imputs de melhorias na jornada dos usuários, é claro;

Áreas cross, como por exemplo infraestrutura e segurança que dão suportem e estabelecem padrões para determinadas operações da plataforma;

Verticais de negócio, que a partir do portfólio priorizado podem requerer funcionalidades/recursos que ainda não estejam disponíveis na plataforma;

Horizontais técnicas, como de engenharia de software, devops e qualidade, os quais são os nossos principais usuários e nos trazem novas necessidades e feedbacks para evolução da plataforma.

Dado o backlog, utilizamos critérios de priorização para definir o que entra no portfólio da plataforma, o qual trabalhamos trimestralmente.

No que se refere aos serviços, difícil detalhar todos aqui, mas pensamos sempre na jornada desde a criação de um projeto de software até sua operação. Abaixo uma visão simplificada desse jornada:

Descrevendo um pouco das funcionalidades entregues ao longo dessa experiência:

Criação do projeto de software e permissões para as equipes;

Gerenciamento de equipes e papéis (PO, Dev, Dev Sr, DevOps, QA)

Atribuições específicas por papel (ex: PO aprovar a entrada de uma versão em produção)

Catalogo de aplicações com vínculo automático ao CMDB (Jira)

Templates de software (hoje são mais de 50 disponíveis)

Instalação e operação da aplicação em cloud híbrida (Kubernetes / EKS / ECS)

Migração da aplicação entre clusters (ex: do Kubernetes no Datacenter para o EKS na AWS)

Pipeline de integração e deploy contínuo com steps padronizadas

Integração com o processo de gestão de mudanças (Jira)

Gestão de configuração das aplicações

Cofre de senhas para as aplicações

Bancos de Dados self-service (Oracle, Mongo, Mysql, Postgres, etc.)

Criação de tópicos kafka

Consumo de tópicos kafka com flow de autorização

Criação de Buckets S3

Habilitar/desabilitar monitoramento

Export automático de logs

Exposição de serviços à usuários (aqui toda a parte de segurança automatizada, como regras de firewall por exemplo)

Consulta de rotas no API Gateway

Habilitar/desabilitar service mesh e definir policies

Quando falo dessas funcionalidades pense que elas funcionam sempre de maneira integrada, ou seja, muitas delas não requerem interação do usuário, como por exemplo quando se cria um banco de dados para uma aplicação. A ação do usuário foi apenas solicitar o recurso pelo portal, em backgroud esse banco foi criado, registrado na rede, passou a ser integrado com o cofre de senhas (vault) para que a aplicação consuma a senha direto e teve sua string de conexão publicada para aplicação. Em um outro exemplo, quando uma nova aplicação é criada pela ação do usuário, automaticamente um repositório é criado, são adicionadas as permissões para a equipe, com base no template escolhido é realizado o build e deploy de uma V0 no ambiente de desenvolvimento para que o desenvolvedor inicie o trabalho.

Quais mecanismos vocês utilizam para a socialização de conhecimento com os times de desenvolvedores, para assegurar que padrões e melhores práticas estão sendo adotados, quais as principais métricas que são utilizadas?

Como comentei, o papel do devops nos auxilia bastante nesse contexto, por estar mais próximo do dia a dia do time e da operação. Entendemos hoje que esse é um papel fundamental para escalar o modelo. Tentamos no passado na organização da plataforma digital trabalhar apenas com o time de desenvolvimento e o de engenharia da plataforma, o que ocorria era que o time de engenharia da plataforma não conseguia focar na evolução do produto de plataforma, pois passava muito tempo auxiliando o time de desenvolvimento. Operar sem esse papel (eng. Devops) na nossa visão requer alto nível de maturidade em 3 pilares, sendo:

Capacidades da plataforma: Quanto maior for o leque de capacidades disponíveis na plataforma e melhor a experiência da jornada, mais fácil do time de desenvolvimento conseguir andar sozinho sem necessidade de auxílio ou dependência de outros papéis;

Maturidade do time de desenvolvimento em infraestrutura: No nosso contexto estamos falando de uma plataforma híbrida e com diversos componentes, operar com autonomia requer nesse contexto além do conhecimento de infraestrutura skills avançados para atuar em cenários complexos, como incidentes por exemplo. Até mesmo em entender bem o funcionamento dos componentes da plataforma e seus casos de uso, mindset de operação e observabilidade, etc.

Resiliência dos sistemas: Quanto mais estáveis os sistemas menor necessidade de interação com a infraestrutura e conhecimentos avançados nesse contexto.

Dando sequência a como nos comunicamos, hoje como temos uma organização matricial (verticais e horizontas), procuramos tratar nas horizontais o “como” fazer as coisas. Algumas horizontais que trabalhamos no contexto de engenharia de plataforma:

Chapter de Engenharia de software: é a horizontal que direciona o tema de engenharia de software e tem a participação de todos os desenvolvedores e QAs, nossos principais clientes. Então mantemos uma conexão com esse time e participamos ativamente desse capítulo, sempre escutando os feedbacks e solicitações, como também levando novas funcionalidades e padrões. Essa horizontal também tem um time de centro, com o qual mantemos uma rotina de alinhamento de backlog e atuação em conjunto na evolução.

Chapter Devops: É o capítulo que lideramos, onde estão todos os skills de infraestrutura que atuam no contexto de entregas para o desenvolvimento. Aqui também participam os representantes do time de centro de engenharia de software. Discutimos desde questões mais básicas de resiliência dos componentes até o roadmap de evoluções. É o time de devops por exemplo que nos auxilia a evoluir com os times de desenvolvimento na adoção dos padrões.

Guilda de cloud: Aqui mantemos skills de diversas áreas para estabelecer padrões e governar o tema. A área de engenharia da plataforma é representante fundamental, uma vez que é o principal cliente da estratégia e responsável por manter a maior dos recursos que são consumidos na cloud privada ou pública.

Uma jornada como essa não acontece sem percalços. Quais foram as maiores dificuldades que vocês enfrentaram (ou enfrentam)? Quais foram as lições aprendidas? Quais são os próximos desafios pela frente?

Já comentei sobre algumas, mas aqui resumindo:

Ter iniciado o mesmo tema em paralelo por equipes diferentes, o que nos trouxe certo atraso posteriormente para unificar a visão e padronizar as coisas;

Ter iniciado sem suporte da estrutura de devops em alguns times, o que trouxe ao time de engenharia de plataforma muito operacional de dia a dia e pouco tempo par evoluir como produto;

Aprendemos muito sobre o modelo executando, então não foi fácil alinhar a visão internamente e estabelecer claramente o papel e os limites de cada um nas diferentes perspectivas (Infraestrutura base/cloud, plataforma, devops, engenharia de software, etc..). Mudamos várias vezes nossa organização interna para respoder melhor à nossa estratégia e objetivos;

A visão de entrega como produto e construção como portfólio é algo que estamos em constante evolução, pois todo o modelo de entrega da empresa vem passando por transformação e estamos surfando essa onda nos produtos de plataforma.

Por último, a visão de trabalhar direcionado por dados, como comentei, por muito tempo nos guiamos mais pela “dor” do que por dados de fato. Estamos trabalhando para evoluir nisso agora e trazer uma visão cada vez mais conectada à entrega que efetivamente estamos realizando para o negócio.

Para finalizar, trago aqui alguns números para dar um pouco da dimensão do que temos rodando nesse modelo de plataforma hoje (são dados de abril/23).

E por fim mesmo, alguns prinípios que nos norteiam no dia a dia, os quais sempre estamos observando em nossa atuação como engenharia de plataforma:

Que história incrível, né?

Meus sinceros agradecimentos ao Cleber Agazzi pela generosidade e pelo tempo para compartilhar conosco.

O que vocês acharam? Comentários?

Abraços do Mangi.