Joviano

Bem vindo ao

Blog do Jovi!

O blog do Jovi tem como objetivo ajudar você com suas dúvidas, além de expandir seu conhecimento através da informação.

Importar PDF no Power Query

Hoje vamos falar sobre algo que pode ser muito útil para quem trabalha com dados: como importar PDFs no Power Query. Se você ainda não conhece essa ferramenta, já deixo a dica: você está perdendo tempo e dinheiro! Vamos lá.

O Power Query é uma ferramenta incrível que vem instalada no Power BI e no Excel, que permite que efetuemos limpezas em relatórios dispostos em arquivos de vários formatos, como txt, csv, xlsx, PDF e muitos outros formatos.

Conheça mais sobre o que é o Power Query CLICANDO AQUI.

PDF de uma foto x PDF de um relatório

Antes de iniciar, garanta que o PDF contenha dados estruturados e não “PDF de uma Foto”.

Mas como ver isso? Você pode tentar selecionar os dados do arquivo (usando um Ctrl + A), e caso conseguir, a chance do Power Query ler é muito grande.

Veja um exemplo escandaloso de um pedaço de um PDF que recebi esses dias de um colega.

tabela campeonato carioca
Exemplo de PDF de uma foto

Podemos ver que foi gerado a partir de uma foto, e esse tipo de PDF o Power Query não consegue ler.

Para ler um arquivo como esse, você pode usar essa opção onde ao selecionar “Da Imagem”, o Excel vai ler uma imagem e converter em uma tabela, mas, fara isso 1 imagem por vez, e não fica bom para todos os casos.

Se o PDF for de dados “selecionáveis”, você abre um mar de opções, e uma delas é poder importar com o Power Query (no Excel ou no Power BI), e melhor ainda: “muitas páginas de uma vez só!

Importar arquivos PDF no Power Query [Extract]

Para importar um arquivo PDF no Power Query é muito simples, bastando você acessar esta sequencia de menus [no Excel por exemplo]:

Importar PDF com Excel
Exemplo no Excel do Office 365 | Ano 2022

Depois disso basta selecionar o arquivo, e vai abrir uma caixa de seleção de objetos como essa da imagem a seguir:

Seleção de dados na Importação de PDF com Power Query
Seleção de dados na Importação de PDF com Power Query

Aqui nessa etapa, você pode optar por confiar na Inteligência Artificial por trás do Power Query, e selecionar essa “Table001 (Page 1-41)”, onde o programa identificou um padrão entre as páginas 1 a 41, e criou um tabelão, juntando todas as páginas.

Perceba como o Power Query já está nos ajudando, pois em cada página podemos ter cabeçalhos, rodapés, e muitos outros caracteres indesejados, que em uma linguagem como Python, teríamos que Limpar na “munheca”.

Clicando nessa primeira tabela, podemos ver que o trabalho está quase pronto, necessitando de poucos ajustes.

Tratamento na Tabela [Transform]

Nossa tabela veio com a primeira linha contendo os cabeçalhos da tabela, e queremos renomear as colunas, com cada uma destas informações:

Tabela no Power Query com cabeçalhos na primeira linha
Tabela no Power Query com cabeçalhos na primeira linha

Em apenas um clique você resolve isso, clicando na aba [TRANSFORMAR] e em seguida usando um dos comandos de tratamento de cabeçalhos:

Primeira Linha como Cabeçalho no Power Query
Primeira Linha como Cabeçalho no Power Query

E agora basta selecionarmos as colunas e alterar o tipo de dados, que em nosso exemplo, podemos ver que as colunas de quantidade e valor estão como texto, e textos não são “somáveis”:

Transformando tipo de dados no Power Query
Transformando tipo de dados no Power Query

Prontinho!

Nossa primeira transformação de dados está finalizada.

Carregando para o Excel [Load]

Uma vez que importamos e transformamos nosso relatório PDF em uma tabela lindona, podemos carregar ao Excel ou ao Power BI.

Para isso basta clicarmos em [Fechar e Carregar]:

Carregando dados do Power Query ao Excel
Carregando dados do Power Query ao Excel

E pronto, seu relatório está disponível para você montar suas análises sobre ele.

Preparei uma Super Aula

Clique Aqui e assista uma LIVE que fiz abordando esse tema, no Power Query, aonde iniciamos com exemplo simples, e no final, juntamos todos os PDF da pasta com Linguagem M (por trás do Power Query), para que você saiba do poder da Ferramenta.

É uma densa, mas que vai fazer você ter ideias do que o Power Query consegue entregar.

Te ensinei o que é ETL e você nem percebeu

Em alguns passos eu te ensinei o processo de ETL, que vem do Inglês: “Extract Transform and Load”.

Essa é a função do Power Query, mas que você também encontra em outras ferramentas como Python também.

Mas eu gosto que meus alunos aprendam primeiro a fazer isso no Power Query, pois a facilidade de começar a entregar resultados apenas com o toque do mouse é algo simplesmente fantástico.

Não é sobre tratar PDF, e sim, Tratar Texto

Uma das dores comuns de meus alunos é justamente se deparar com algo muito especifico no PDF e não conseguir dar o próximo passo, e isso acontece por falta de vivência com a Ferramenta.

Quando buscamos uma post ou vídeo para solucionar um problema, ficamos focados naquele exemplo ensinado, mas, se juntarmos com técnicas de outros CASES de sucesso, com certeza conseguimos entregar soluções robustas.

Semanalmente eu trago uma aula para o Youtube, a qual deixo disponível gratuitamente por alguns dias [depois só para alunos], e em MAIO de 2022 eu trouxe uma sequencia de 2 AULAS sobre extração avançada de dados de PDF, sobre uma arquivo que a Receita Federal do Brasil disponibiliza, chamado TABELA TIPI.

Importação avançada de dados do PDF da Tabela TIPI com Power Query
Importação avançada de dados do PDF da Tabela TIPI com Power Query

Naquela oportunidade eu mostrava o uso de várias técnicas do Power Query, além do toque do mouse. Mostrei como usar condicionais, listas, registros, filtros, contextos, virtualização e tudo mais.

Quando falamos de extração de dados, falamos de várias técnicas, que juntas resolvem um problema, e você, deve conhecer e praticar essas técnicas para que quando for necessário, saber usar.

Conclusão

Importar PDFs para o Power Query é uma tarefa simples e rápida, mas você viu que existem técnicas avançadas que podem turbinar (e muito), seus trabalhos.

Há anos que reúno as técnicas que uso no meu dia-a-dia em nossa FORMAÇÃO POWER QUERY 2.0, onde você vai aprender tudo sobre Power Query, incluindo como importar PDFs, transformar dados e muito mais.

Não perca a oportunidade de se tornar um expert em tratamento de dados com Power Query!

3 Comentários

  • E se o PDF for protegido por senha? Mesmo sabendo a senha, o Power Query não pede para digitar e retorna o seguinte erro: Detalhes: “Pdf failed to load with result: PasswordRequired”

    Resposta

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Receba conteúdos do Jovi!

Digite seu interesse abaixo:

Quer Aprender sobre Power Query?

Conheça nossa formação e tudo que você pode aprender com ela.

Mais conteúdos gratuitos para você!

OPA, vejo que você é novo por aqui!

Temos um presente de boas vindas para os amantes de Blog!

E ai FERA?!

Não vou atrapalhar tua leitura deste super artigo.

Só quero te dizer que por ser um visitante novo aqui no site, nosso sistema está programado para te enviar um cupom de desconto para a FORMAÇÃO POWER QUERY 2.0, que é um pacotão de cursos do JOVI, com mais de 300 horas de conteúdo.

Informe seus dados a seguir, que te enviaremos as instruções para resgate desse cupom exclusivo.

Exemplo 👉 +5511988776655 👈 [não informar pontos, traços e parênteses]

explicação telefone

Números do Brasil devem iniciar com +55
Preencha conforme o exemplo, pois o presente será enviado por WhatsApp para esse número. 

Após enviar, pode fechar essa janela, que seu presente já está em processamento.