Ao trabalhar com análise de dados, frequentemente nos deparamos com a necessidade de juntar informações de diferentes tabelas para obter insights mais completos. Seja utilizando o ProCV no Excel, explorando as funcionalidades do Power Query, ou manipulando dados com Python, o objetivo é sempre integrar dados de forma eficaz.
Este guia se propõe a desvendar como realizar operações semelhantes ao ProCV, focando especificamente no Power Query e no Python.
Ao dominar essas técnicas, você será capaz de juntar tabelas de maneira eficiente, ampliando suas capacidades de análise e tornando o processo de tomada de decisão mais informado e baseado em dados.
Realizando Buscas Estilo Procv no Power Query
Unindo Dados Facilmente
Embarque na jornada do Power Query, uma ferramenta do Excel que permite combinar informações de diferentes tabelas de forma simples e intuitiva, sem precisar ser um expert em dados.
Quando falamos em fazer algo parecido com o Procv, estamos nos referindo a encontrar e juntar informações específicas de uma tabela em outra, utilizando um ponto em comum entre elas.
Queremos buscar o dado da coluna E da Tabela2 e colocar em uma coluna nova ta Tabela1.
Veja que conseguimos ligar as tabelas através da coluna em comum, que a Tabela1[A] e Tabela2[D]
Vamos descomplicar esse processo:
1 – Carregando suas Tabelas
Caso você ainda não tenha carregado suas tabelas para o Power Query, o primeiro passo é trazer as tabelas para a ferramenta.
No Power Query do Excel você pode enviar os dados via guia Dados:
Ou dentro do Power Query (do Excel ou do Power BI), você pode invocar os dados que estão em outro arquivo:
Ai é só escolher o arquivo e importar.
2 – Mesclar Consultas (fazer PROCV) para Juntar Informações
No menu inicial, procure pelo botão de COMBINAR:
Você irá escolher as duas tabelas que deseja conectar e o ponto em comum entre elas, conhecido como “coluna chave“.
Se você não está familiarizado com o termo “chave”, pense nela como uma etiqueta única que cada produto tem, como um código de barras, que permite identificar e ligar informações relevantes de diferentes tabelas.
Nesse caso, estamos dizendo para o Power Query posicionar as duas tabelas lado-a-lado, que vamos querer buscar dados.
Mas, veja que na última frase do quadrinho, ele mostra que encontrou apenas 2 linhas correspondentes, e isso ocorre porque nem todos os itens da ColunaA da Tabela1 estão na ColunaD da Tabela2.
Quando isso ocorrer, ele vai trazer a informação null, que não é um erro, e explico nesse artigo aqui.
Mas, nesse inicio, vamos focar nas linhas que encontramos.
3 – Selecionando o Tipo de Junção:
Antes de dar o OK na caixinha, temos que selecionar o Tipo de Junção.
O tipo que se assemelha ao PROCV tradicional é a ‘Externa Esquerda’ (Left Join).
Mas, se você quiser, fazer a junção, e já filtrar para mostrar somente os itens que estão em ambas as tabelas, use a ‘Interna’.
Para os mais entendidos, é o que representa o INNER JOIN do SQL.
Recomendamos que você teste e conheça os tipos de junção e o que eles fazem, e para isso, nada melhor que praticar!
4 – Expansão e Personalização dos Dados Mesclados:
Logo após ter feito a etapa anterior, você terá uma tabela semelhante a essa:
Essa coluna adicional representa a tabela secundária.
Você pode expandir essa coluna para escolher quais informações específicas dessa tabela deseja incluir na sua visualização principal.
Isso é feito com um simples clique no ícone de expansão e marcando as caixas de seleção dos campos que interessam.
Seguindo esses passos, você consegue juntar informações de maneira eficaz, criando uma nova tabela que combina dados relevantes de duas fontes originais.
Este processo elimina a necessidade de complicadas fórmulas de busca ou de múltiplas etapas manuais, facilitando a vida de quem não é especialista em dados, mas deseja fazer análises mais profundas e tomar decisões baseadas em informações completas.
Com o Power Query, a tarefa de juntar dados torna-se não só acessível, mas também rápida e descomplicada.
Python: Quando a Análise de Dados Exige Memorização de Códigos
Abordando a União de Dados com Python para Quem Prefere Cliques a Códigos
Python é uma ferramenta incrivelmente poderosa para análise de dados, oferecendo uma liberdade sem igual na manipulação de informações complexas.
No entanto, para fazer o equivalente a uma busca estilo ProCV, como você faria facilmente com cliques no Power Query, no Python você entra no território da memorização de códigos.
Isso pode ser um desafio, especialmente se você está mais acostumado a interfaces gráficas do que a linhas de comando. Vamos ver como isso funciona:
Introduzindo pandas: Primeiro, você precisa se familiarizar com a biblioteca pandas, um dos pilares da análise de dados no Python. Isso significa começar seu script com uma linha de importação que, embora simples, é a primeira de muitas que você precisará lembrar:
import pandas as pd
Carregamento de Tabelas: Para trazer suas tabelas para o ambiente Python, você usa funções específicas de leitura. Dependendo do formato do seu arquivo (CSV, Excel, etc.), o comando muda um pouco, adicionando mais uma camada para memorizar:
Tabela1 = pd.read_csv('caminho_para_Tabela1.csv')
Tabela2 = pd.read_csv('caminho_para_Tabela2.csv')
Mesclagem de Dados Exige Precisão: Para juntar suas tabelas, o comando merge
entra em cena. Aqui, você precisa ser exato em sua sintaxe, especificando as tabelas, a coluna chave para a junção e o tipo de junção (como ‘inner’ para um equivalente ao ProCV). Um pequeno deslize na sintaxe pode levar a erros frustrantes:
dados_combinados = pd.merge(Tabela1, Tabela2, left_on='A', right_on='C', how='inner')
Exportando para o Excel: Ao finalizar sua análise, se você deseja compartilhar os resultados com colegas que utilizam Excel ou simplesmente prefere visualizar seus dados nesse formato, o Python requer mais um conjunto de comandos para exportar os dados. Isso inclui mais uma etapa de aprendizado sobre como salvar seu DataFrame como um arquivo Excel:
dados_combinados.to_excel('dados_combinados.xlsx', index=False)
O comando completo fica assim:
import pandas as pd
# Carregando as tabelas (substitua 'caminho_para_Tabela1.csv' e 'caminho_para_Tabela2.csv' pelos caminhos reais dos seus arquivos)
Tabela1 = pd.read_csv('caminho_para_Tabela1.csv')
Tabela2 = pd.read_csv('caminho_para_Tabela2.csv')
# Realizando a mesclagem das tabelas com base nas colunas chave 'A' da Tabela1 e 'C' da Tabela2
dados_combinados = pd.merge(Tabela1, Tabela2, left_on='A', right_on='C', how='inner')
# Exportando o resultado da mesclagem para um arquivo Excel
dados_combinados.to_excel('dados_combinados.xlsx', index=False)
Quando Usar Cada Ferramenta
Ambas as abordagens, Power Query e Python, são incrivelmente poderosas para juntar tabelas de forma dinâmica e eficiente.
Para usuários de Excel que preferem evitar a complexidade da programação, o Power Query oferece uma solução visual e direta. É ideal para situações de trabalho onde a rapidez e a simplicidade são cruciais.
Por outro lado, o Python, com sua biblioteca pandas, é perfeito para quem busca análise de dados mais complexos, onde operações além de simples combinações de tabelas são necessárias, como por exemplo, projetos de Machine Learning (inteligência artificial) e até mesmo, criação de programas multi-usuário.
Linha de Aprendizado Recomendada
Para se tornar um analista de dados competente, sugiro uma abordagem progressiva que começa com o básico e avança para técnicas mais complexas:
- Início com Power Query: Primeiro, mergulhe no Power Query para entender a manipulação de dados de forma tabular e procedimental. É uma introdução amigável que prepara o terreno para conceitos mais avançados, ensinando a organizar e preparar dados sem programação.
- Evolução com SQL: Após dominar o Power Query, avance para o SQL. Essa linguagem essencial permite que você interaja diretamente com bancos de dados, realizando consultas complexas e ganhando autonomia para acessar dados brutos.
- Use o Power BI: Aplique os conhecimentos de Power Query e SQL, somados ao DAX e design criando seus relatórios na maior e melhor ferramenta de BI que existe na atualidade.
- Aprimoramento com Python: Com uma base sólida em conceitos tabulares e SQL, o próximo passo natural é explorar o Python. Ideal para ultrapassar os limites do Excel e Power BI, o Python abre portas para análises preditivas, automação e muito mais.
Da Formação ao Domínio: A Trilha Python na Formação Power Query 2.0
Entendendo a importância dessa progressão, nosso módulo “From Power Query to Python” na Formação Power Query 2.0 é a ponte perfeita para essa transição.
Ele compara diretamente os tratamentos de dados no Power Query e no Python, facilitando a compreensão e aplicação de conceitos em ambas as ferramentas.
Este caminho é desenhado não apenas para ensinar habilidades técnicas, mas para construir uma mentalidade analítica robusta, equipando-o para enfrentar qualquer desafio de dados.
Seguindo essa trajetória recomendada, você adquire uma formação completa em análise de dados, da organização inicial de dados ao domínio de técnicas de programação avançadas, tudo com o apoio e os recursos da Formação Power Query 2.0.
Ponto de Atenção
Quando fazemos um PROCV (ou PROCX), podemos ficar tranquilos, pois se for encontradas varias correspondências na Tabela2, será retornado somente a primeira.
Não é mesmo?
Pois então, essa “tranquilidade” acaba quando falamos de Power Query, Python, SQL e qualquer outra linguagem de manuseio de dados.
Isso porque se for encontradas várias correspondências, o programa vai criar uma nova linha na Tabela1 para cada correspondência localizada na Tabela2.
CLIQUE AQUI e veja essa video-aula no meu canal do Youtube onde eu explico isso com mais detalhes.
Conclusão
Dominar as técnicas de juntar tabelas tanto no Power Query quanto no Python abre um leque de possibilidades para análise de dados, permitindo que você manipule e analise grandes volumes de informações de maneira eficaz.
Seja você um entusiasta do Excel buscando simplificar suas tarefas diárias ou um aspirante a cientista de dados querendo explorar o vasto universo da análise de dados com Python, há um caminho claro a seguir.
Forte Abraço