Não há nada pior do que abrir um PDF e mais do que perceber que você não pode usar a operação de pesquisa ou destacar o texto. Geralmente, esse é o caso se um PDF for criado digitalizando um documento em papel – esta é apenas uma série de imagens. A maioria dos softwares de varredura moderna usa o reconhecimento de escrita óptica (OCR) para que as palavras sejam pesquisadas e seletivas, mas às vezes você executa em documentos que não acontecem.

Nesses casos, de código aberto gratuito e aberto OCRMYPDF Estar por perto é perfeito. Este é um aplicativo de linha de comando que qualquer arquivo PDF altera um PDF/APLEF rapidamente com a autorização de gravação óptica, o que significa que você pode procurar o texto. Melhor ainda, isso é totalmente gratuito.

A instalação do aplicativo é melhor feita usando o gerenciador de pacotes em dispositivos Linux e usa o Mac no Mac. Usuários do Windows O aplicativo pode ser instalado tecnicamente Ao instalar o Python e alguns outros dependentes, veja se você deseja fazer algumas escavações.

Quando o aplicativo é configurado, ele pode ser usado digitando ocrmypdf Seguindo o nome do documento que você deseja adicionar OCR Para, Então o nome do documento que você deseja criar. Então, por exemplo, ocrmypdf before.pdf after.pdf Pegue o “Front. PDF”, adicione a autorização de redação e, em seguida, crie um novo documento chamado “After.pdf”.

Esse processo leva um tempo, dependendo do tamanho do documento e, se a qualidade da imagem for baixa, ela não será completamente precisa. Apesar de tudo isso, vi isso fez um bom trabalho com os PDFs mais antigos e mal curtos que eu poderia cavar.


Crédito: Justin Pot

E você pode fazer aqui: de fato, o Livro culinário no documento OCRMYPDF Descreve algumas coisas que você pode fazer. Você pode reduzir as imagens em PDF, por exemplo, adicionando --pdfa-image-compression jpeg Por sua apreciação. Pode colocar automaticamente qualquer lado com o texto lateral adicionando --rotate-pages Para o comando. Ou pode ser o OCR, você assume que o PDF que você processa já é a pior qualidade – você pode adicionar --redo-ocr Para comandar; Ele começará a remover as informações existentes do OCR.

Você tem a ideia: há muito aqui. Confira os documentos para obter mais informações Porque essa coisa pode ser feita.

Link da fonte