Uma das principais preocupações das instituições financeiras, como bancos e fintechs, é detectar fraudes em transações com cartões de crédito. Apenas no Brasil, cerca de 12,1 milhões de pessoas já foram vítimas de algum tipo de fraude financeira no último ano. Traduzindo em valores, os golpes financeiros ultrapassaram a cifra de R$ 1,8 bilhão de prejuízo por ano para os últimos 12 meses. Dentre essas fraudes, aquelas envolvendo cartões de crédito são de grande relevância uma vez que a sua não-detecção acarretará em prejuízos consideráveis, tanto para o consumidor quanto para a instituição financeira. Um fator problema quando da elaboração de um algoritmo nesse tema, é a classificação errônea (pelo algoritmo) de possível fraude, ou seja, aquelas vezes em que você tentou fazer uma compra e teve seu cartão bloqueado preventivamente – o que provavelmente gerou estresse e constrangimento. Por todos esses motivos, o investimento na área de detecção de fraudes por meio de Inteligência Artificial vem crescendo a cada ano, representando uma grande oportunidade em Data Science. Dispondo de grandes volumes de dados como base histórica, um algoritmo de Machine Learning apenas um pouco melhor que os anteriores já representa uma economia de milhões de Reais. E esse é o desafio, aprimorar cada vez mais o uso de algoritmos visando inibir ou evitar transações fraudulentas. SOBRE O ALGORITMO Elaboramos um algoritmo robusto, mas compreensível para os iniciantes, aonde é possível que você colha insights, e aplique em seus problemas reais. Usamos bibliotecas famosas como Pandas, Numpy, Scikit-learn entre outras, tomando o cuidado de lhe apontar qual versão usamos, para que você replique exatamente como fizemos. A base de dados estava bem tratada, sem dados ausentes, e com uma técnica de redução de dimensionalidade (PCA), o que torna o trabalho desafiador, e cheio de oportunidades. Outro fator importante a mencionar, é que menos de 1% dos dados são fraudes, e precisamos balancear os dados para garantir o melhor treino do modelo de Machine Learning. Falando em modelo, usamos uma Regressão Logística, a qual teve performance superior aos 90% de acerto em ambas métricas COMPARTILHANDO O CÓDIGO FONTE O algoritmo desenvolvido em Python está disponível no Github, o qual recomendamos que você faça o Download, e replique em seu ambiente. Ah, se você gostou, considere compartilhar esse artigo em suas redes sociais. Forte Abraço!