A Microsoft vem evoluindo suas ferramentas ao longo dos anos trazendo sempre novidades com foco em aumento de produtividade e autonomia de seus usuários. Essas novidades, como o Power Query (por exemplo), permitem usuários não programadores, criar as famosas “planilhas da NASA” com poucos cliques e/ou comandos. A tríade de ferramentas, que já vem instaladas no Excel, que vêm ganhando espaço nas planilhas da galera é composta por: Com essas ferramentas, aquele afirmação de que “não é possível calcular mais de 1 milhão de linhas” passou a não ser mais verdade. E mais, não existe mais aquela necessidade de “pedir para o carinha fera do Excel” montar uma MACRO em VBA, para converter aquele arquivos txt (ou csv) que você recebe mensalmente, e precisa conferir e confrontar com outro relatório. Com o Power Query, você programa uma vez só isso tudo, e todo mês basta clicar em Atualizar Tudo. O que exatamente o Power Query faz? É uma ferramenta capaz de pegar dados de alguma fonte, seja ela txt-csv-pdf e até mesmo banco de dados, efetuar uma série de tratamentos nestes dados, criando uma tabela, que você pode simplesmente carregar para o Excel ou seu modelo de Power BI. O mais interessante é que você pode começar na ferramenta apenas com os cliques do mouse, diferentemente do VBA, que exige uma lógica apurada e muitas linhas de código digitadas. Imagine que você trabalha no departamento contábil, custos, pcp ou controladoria e se depara com um relatório de estoques zoneado como esse aqui: ou você trabalha no departamento financeiro, e tem um relatório parecido com esse: E com alguns cliques, você consegue fazer um tratamento nesses dados (limpeza), resultando em uma tabela com cada informação em uma coluna, capaz de usar, por exemplo, numa tabela dinâmica. Como essa que a seguir: Faça um exercício, e pare pra pensar no trabalho que daria fazer essa conversão com aquele famoso “texto para colunas”, e pior, no próximo mês, quando fosse necessitar dos dados atualizados, teria que fazer tudo novamente. Quando você cria um tratamento de dados como esse, você está criando, ao toque do mouse, um conjunto de regras, e quando virar o mês, trocar o arquivo base (Fonte), clicar em atualizar, e todos aqueles comandos se aplicam. Mas ele está no Excel? Me explica melhor isso! Eu conheci o Power Query através do Power BI, mas a verdadeira revolução aconteceu quando eu vi que ele estava presente no meu Excel, lá no ano de 2016. Você pode acessar o programa através da guia dados, como na imagem a seguir: Para versões anteriores a 2016 (limitadas a 2010), há necessidade de instalar o Power Query como suplemento, e você pode obtê-lo clicando aqui. Então seu acesso nesse caso se dará através de uma guia exclusiva, denominada POWER QUERY (do ladinho de Dados, Exibir…) Quer continuar aprendendo? CLICANDO AQUI você terá acesso a um curso GRATUITO de Power Query, com duração de 2 horas, aonde te mostro como utilizar o Power Query em 5 CASES (reais). Mas se você já deseja virar um especialista em tratamento de dados, seguindo uma trilha de aprendizado, e nunca mais passar calor ao ter que converter um relatório, e confrontar com outro, inclusive, conectando direto no Banco de Dados, te convido a fazer parte da FORMAÇÃO POWER QUERY 2.0. É um pacote de 16 cursos que totalizam aproximadamente 400 horas (em 2023) que vai pegar você que é “basicão” em Excel e transformar em um Mestre Jedi do tratamento de dados. Por hoje é isso pessoal,Forte abraço e bora tomar aquele café ☕
Dia: 5 de novembro de 2022
Identificando fraudes em transações com Python
Uma das principais preocupações das instituições financeiras, como bancos e fintechs, é detectar fraudes em transações com cartões de crédito. Apenas no Brasil, cerca de 12,1 milhões de pessoas já foram vítimas de algum tipo de fraude financeira no último ano. Traduzindo em valores, os golpes financeiros ultrapassaram a cifra de R$ 1,8 bilhão de prejuízo por ano para os últimos 12 meses. Dentre essas fraudes, aquelas envolvendo cartões de crédito são de grande relevância uma vez que a sua não-detecção acarretará em prejuízos consideráveis, tanto para o consumidor quanto para a instituição financeira. Um fator problema quando da elaboração de um algoritmo nesse tema, é a classificação errônea (pelo algoritmo) de possível fraude, ou seja, aquelas vezes em que você tentou fazer uma compra e teve seu cartão bloqueado preventivamente – o que provavelmente gerou estresse e constrangimento. Por todos esses motivos, o investimento na área de detecção de fraudes por meio de Inteligência Artificial vem crescendo a cada ano, representando uma grande oportunidade em Data Science. Dispondo de grandes volumes de dados como base histórica, um algoritmo de Machine Learning apenas um pouco melhor que os anteriores já representa uma economia de milhões de Reais. E esse é o desafio, aprimorar cada vez mais o uso de algoritmos visando inibir ou evitar transações fraudulentas. SOBRE O ALGORITMO Elaboramos um algoritmo robusto, mas compreensível para os iniciantes, aonde é possível que você colha insights, e aplique em seus problemas reais. Usamos bibliotecas famosas como Pandas, Numpy, Scikit-learn entre outras, tomando o cuidado de lhe apontar qual versão usamos, para que você replique exatamente como fizemos. A base de dados estava bem tratada, sem dados ausentes, e com uma técnica de redução de dimensionalidade (PCA), o que torna o trabalho desafiador, e cheio de oportunidades. Outro fator importante a mencionar, é que menos de 1% dos dados são fraudes, e precisamos balancear os dados para garantir o melhor treino do modelo de Machine Learning. Falando em modelo, usamos uma Regressão Logística, a qual teve performance superior aos 90% de acerto em ambas métricas COMPARTILHANDO O CÓDIGO FONTE O algoritmo desenvolvido em Python está disponível no Github, o qual recomendamos que você faça o Download, e replique em seu ambiente. Ah, se você gostou, considere compartilhar esse artigo em suas redes sociais. Forte Abraço!
Traduzir tabelas com frases em qualquer idioma
Senhores, quem de vocês já não precisou traduzir tabelas de seu conjunto de dados, e queria fazer isso de forma automática? Pois bem, as vezes queremos fazer isso nos títulos das inúmeras colunas de nosso dataset, as vezes dentro das séries ou das listas. Eu comecei meus testes com o translate do python, mas, ele tem um limite pequeno de requests para o ‘plano free’. Pensei que teria que fazer um Scraping com BeautifulSoup, mas não, consegui encontrar e montar pra turma uma solução bem interessante. A solução está disposta no meu GUTHUB (pra quem quiser copiar) O algoritmo consiste na utilização da biblioteca googletrans , e tudo funcionou bem…será?! não…tive que fazer uns ajustes. Explico no inicio do projeto, como funciona a biblioteca (fácil demais), e ao simular em uma lista, percebi que algumas vezes ela não traduzia, ou se fazia, o response era o próprio texto na língua original. Então, criei um loop, a estilo “burro do Shreck”, que se percebeu que o texto não traduziu, ele espera alguns segundos, e tenta denovo…até conseguir. Minha dica aqui é que você aumente esse Sleep, pois 10 segundos ali, é para fins didáticos. A explicação pode ser que, o GOOGLE tem um API de tradutor, o qual você paga por strings, logo, pra usar algo de graça, tem que ter alguma limitação mesmo. A solução que eu montei foi para contornar, de forma paleativa, esse problema. No final do código mostro como aplicar esse conceito através de APPLY + LAMBDA na coluna do DATAFRAME PANDAS. Espero que gostem, e que esse código possa vir a te ajudar, e, abrir a mente para outras possibilidades. Forte abraço,