Não há nada pior do que abrir um PDF e mais do que perceber que você não pode usar a operação de pesquisa ou destacar o texto. Geralmente, esse é o caso se um PDF for criado digitalizando um documento em papel – esta é apenas uma série de imagens. A maioria dos softwares de varredura moderna usa o reconhecimento de escrita óptica (OCR) para que as palavras sejam pesquisadas e seletivas, mas às vezes você executa em documentos que não acontecem.
Nesses casos, de código aberto gratuito e aberto OCRMYPDF Estar por perto é perfeito. Este é um aplicativo de linha de comando que qualquer arquivo PDF altera um PDF/APLEF rapidamente com a autorização de gravação óptica, o que significa que você pode procurar o texto. Melhor ainda, isso é totalmente gratuito.
A instalação do aplicativo é melhor feita usando o gerenciador de pacotes em dispositivos Linux e usa o Mac no Mac. Usuários do Windows O aplicativo pode ser instalado tecnicamente Ao instalar o Python e alguns outros dependentes, veja se você deseja fazer algumas escavações.
Quando o aplicativo é configurado, ele pode ser usado digitando ocrmypdf
Seguindo o nome do documento que você deseja adicionar OCR Para, Então o nome do documento que você deseja criar. Então, por exemplo, ocrmypdf before.pdf after.pdf
Pegue o “Front. PDF”, adicione a autorização de redação e, em seguida, crie um novo documento chamado “After.pdf”.
Esse processo leva um tempo, dependendo do tamanho do documento e, se a qualidade da imagem for baixa, ela não será completamente precisa. Apesar de tudo isso, vi isso fez um bom trabalho com os PDFs mais antigos e mal curtos que eu poderia cavar.
Crédito: Justin Pot
E você pode fazer aqui: de fato, o Livro culinário no documento OCRMYPDF Descreve algumas coisas que você pode fazer. Você pode reduzir as imagens em PDF, por exemplo, adicionando --pdfa-image-compression jpeg
Por sua apreciação. Pode colocar automaticamente qualquer lado com o texto lateral adicionando --rotate-pages
Para o comando. Ou pode ser o OCR, você assume que o PDF que você processa já é a pior qualidade – você pode adicionar --redo-ocr
Para comandar; Ele começará a remover as informações existentes do OCR.
Você tem a ideia: há muito aqui. Confira os documentos para obter mais informações Porque essa coisa pode ser feita.