Descubra qual o salário de um analista de dados, e qual o caminho para se tornar um profissional super desejado pelo mercado.
Tag: Python
Manipulação de Dados com Python, SQL e DuckDB para Iniciantes
Manipulação de dados com Python, SQL e DuckDB para iniciantes. Explore conceitos, aprenda quando usar o DuckDB
Queimadas no Brasil nos anos de 2012 a 2019
Ola pessoal, vamos hoje falar de um tema que está em alta no noticiário, que são as queimadas no Brasil. Essas queimadas não são exclusivas de hoje, mas, ao que nos consta, a midia tem trazido à tônica da atenção quanto a isso. Esse artigo (acompanhado do script Python) não vão defender politicos, e elaborar teses sobre aquecimento global e final dos tempos…e sim, vamos aproveitar a oportunidade para aprender mais um pouco de Python. O conjunto de dados fornecido pelo governo está em formato de tabela, mas carece de uma boa limpeza para tornar legível para leitura e analise. Quer ver? Olha só! Viu só? Após a limpeza dos dados com nosso amigo pandas, obtivemos nosso primeiro insight, que é a representatividade de cada estado quanto às queimadas. Aonde podemos visualizar os vilões da história recente: Isso nos levou a perguntar qual a evolução desses numeros ao longo dos anos, utilizando o gráfico de linhas, pudemos visualizar, e evolução dos dados (totais) apresentados pelo governo: Era o que precisávamos para ascender a luz da desconfiança para os dados, aonde é muito, mas muito estranho, os anos de 2013 e 2018 ter uma queda tão abupta no volume de queimadas. Após calcular a média móvel dos 4 estados com maior quantidade de queimadas, imprimimos o gráfico de linhas, só que agora aberto por estados, e ao que nos parece, as informações de queimadas foram deslocadas ou para 2017 ou para 2019. Veja a seguir o gráfico com média móvel (4 anos) e sem: SEM MÉDIA MÓVEL COM MÉDIA MÓVEL (4 ANOS) Com esse último gráfico vimos que Mato Grosso (MT) está crescendo e indo ao encontro do estado do Piauí, que até então ocupa primeira posição. Em seguida comparamos a área INFORMADA como queimada, com o total informado como reserva natural, e vimos que as posições no ranking se inverteram drasticamente: Isso nos levou a pensar que ou os dados estão com unidades de medidas diferentes (no dataset original), ou são informadas queimadas em áreas que não são de reserva, e atreladas às reservas. Infelizmente não temos como saber o que é o correto, pois a documentação não menciona isso. E por fim, comparamos a soma da área total das reservas com a soma da área total queimada, e vimos que a situação sim, é bem alarmante, se pensarmos que os dados são de 2012 a 2019 (8 anos): Concluindo o estudo de queimadas no Brasil entre os anos de 2012 e 2019 Mas, esses 36% podem ser muito menos, caso a unidade de medida seja diferente (queira Deus que seja). Outro fato que pode nos deixar um pouco tranquilos (ou não) é o fato do reflorestamento, ou seja, qual o tamanho de área recuperada ao longo desses mesmos anos? Quem sabe no futuro alguem de vocês não consigam essa informação, e possam responder essa pergunta à comunidade. Todo o script Python, focado na sua compreensão está disponível no GITHUB e GOOGLECOLAB, e sugiro você fazer uma cópia, e faça anotação nos pontos que aprendeu com ele, pois, quando eu elaborei, pensei justamente em você poder aproveitar os conceitos para resolver outros problemas do seu dia-a-dia. Espero que tenham curtido o artigo de hoje, e não deixem de conhecer mais sobre meu trabalho, clicando nos links no final dessa página. Forte Abraço
Airbnb no Chile é Caro?
Vamos hoje falar de uma análise exploratória que fiz sobre usar uma locação de imóvel para estadia no CHILE com Airbnb. Para quem não sabe, o Airbnb é uma plataforma de locação de imóveis por tempos curtos, diretamente com o proprietário, como alternativa ao convencional aluguel de quarto de hotel. A plataforma está presente em quase todos os países, emprega mais de 5 mil pessoas, e em 2020 sua receita havia ultrapassado os US$ 3.378 bilhões. O LOCAL ANALISADO O CHILE é um país que margeia a costa do pacífico na América do Sul, e tem sido um destino comum dos Brasileiros que desejam viajar para fora do país. Seu litoral tem extensão de mais de 6 mil Km e se estende até perto da Antártida, aonde reclama soberania sob 1.250 mil Km². Um dos destinos mais procurados por turistas são as estações de esqui La Parva, que é uma cidade e estação de esqui localizada a cerca de 50 km a nordeste da capital chilena de Santiago. Fica no cume do meio dos resorts “3 Vales”, que também inclui El Colorado e Valle Nevado. Ainda no norte do país, outros destinos muito admirados e visitados são os Lagos Atiplano, Vale da Lua, Lago Chungará, Vulcões Parinacota e Pomerape (mais de 6 Km de altura), e claro, outras estações de esqui, como as famosas Valle Nevado e Portillo. Ao sul podemos citar a Patagônia Chilena, Parque San Rafael (geleiras), Arquipélago de Chiloé e Ilha de Páscoa. A análise dos dados sobre Airbnb no Chile Usamos para esse estudo uma base de dados REDUZIDA do CHILE cedidas pela Airbnb, a qual está datada de agosto/2020. Essa base nos traz pouco mais de 9 mil registros de imóveis para locação temporária no país, bem como 17 categorias de informações sobre cada registro. O estudo é uma analise de dados pura, ou seja, captura > tratamento > carregamento > interpretação de dados. Nesta oportunidade não foram aplicadas técnicas de aprendizado de máquina (inteligência artificial). Como o estudo foi elaborado? Limpamos os dados, retirando os “pontos fora da curva”, e ordenamos os dados para facilitar a leitura, e por sua vez o entendimento. Esses pontos fora da curva, denominados outliers, são imóveis com quantidade de pernoites maior que 21 dias, e com valores zerados ou maiores que 95% dos registros. Com essa limpeza nossa base reduziu em 800 linhas, representando 8% de nossos dados. Conclusão O estudo aponta que em AGO/2020, haviam muitas opções para “se hospedar” no Chile na faixa dos 200 a 300 Reais, que é uma faixa de valores interessante para o turista brasileiro. O local mais caro que pudemos identificar, foi a cumuna (bairro) de Lo Barnechea na cidade de Santiago, com custo mediano de mais de R$ 1.2 mil por noite. Compartilhando o código fonte O algoritmo desenvolvido em Python está disponível no Github, o qual recomendamos que você faça o Download, pois algumas funcionalidades (como folium) não funcionam bem no GITBUB. Forte Abraço
Câmbio entre Moedas e Cotações de Ações
Algo que é muito bem vindo, e também muito solicitado por alunos, são as cotações de ações na bolsa de valores, e o câmbio entre moedas em determinada data. Eu preparei um algoritmo em Python, e analisando ele, você vai aprender nesse script, a aliar o GOOGLE SHEETS (que tem o GOOGLE FINANCE embutido), trazendo seus dados sempre atualizados, fresquinhos, para o Python, sem precisar ficar atualizando a planilha na mão. No exemplo que criei, eu busquei o custo das Ações de uma CIA e também, busquei a cotação histórica do Dólar. Depois eu fiz a mesma consulta de Ações com uma biblioteca pandas_datareader, que busca as informações do Yahoo Finance. E por fim, aproveitei o ensejo para mostrar que o Governo Brasileiro tem uma API que retona o valor da cotação do Dolar, e claro, obtivemos os dados também com ela. Explorei um pouco da biblioteca de data, trabalhei com dicionários, laços de repetição e manipulação de colunas de Dataframe (Tabela no Python) com a função LAMBDA. Você vai perceber que é uma solução com muita praticidade, e alguns macetes interessantes foram empregados, como por exemplo, o manuseio da data incluindo os caracteres especiais de espaço, comumente usados em um endereço de URL (navegação WEB). Espero que goste! Se você gostou, deixe seu comentário, e acesse mais sobre meu trabalho Forte abraço,