pdfgrep – Busca texto dentro de un documento PDF

El comando grep en Linux se usa para buscar una cadena de texto específica en cualquier archivo. Esta es una herramienta realmente poderosa que puede usar de varias maneras buscando nuevas líneas, líneas que no tienen letras mayúsculas y muchas más formas. Sin embargo, el comando grep no funciona con archivos PDF.

Ahí es donde entra el comando pdfgrep. Es esencialmente ‘grep’ pero para archivos PDF. En este tutorial, lo guiaré a través del proceso de uso e instalación de este comando.

Tabla de contenido

Instalando pdfgrep

Este comando, aunque no viene con todas las distribuciones de Linux, está disponible en los repositorios oficiales de todos los administradores de paquetes. Para instalarlo, puede usar el siguiente comando, dependiendo de su distribución de Linux:

                      
# On 
                      
                        Debian
                      
                       and 
                      
                        Ubuntu
                      
                      -based distributions
sudo apt update && sudo apt install pdfgrep
# On Fedora Workstation
sudo dnf install pdfgrep
# On Arch Linux
sudo pacman -S pdfgrep

                    
Instalación de pdfgrep en Fedora

Uso de pdfgrep

Si ha usado el comando grep anteriormente, entonces esta utilidad le resultará familiar. El uso básico de este comando es el siguiente:

                      
pdfgrep Search_String FILENAME.pdf

                    
Buscando un texto en PDF

Tal vez desee realizar una búsqueda que no distinga entre mayúsculas y minúsculas porque la cadena de búsqueda se puede escribir en mayúsculas en el documento. Puedes usar el --ignore-case bandera con el comando.

                      
pdfgrep --ignore-case Search_Strng FILENAME.pdf

                    
Ignorar mayúsculas y minúsculas al buscar texto Ignorar mayúsculas y minúsculas al buscar texto

También puede obtener el número total de resultados de búsqueda directamente en la terminal usando la opción -c junto con el comando completo:

                      
pdfgrep --ignore-case Search_Strng FILENAME.pdf --count

                    

Dado que los documentos PDF tienen números de página, también puede obtener el número de página en el que está presente su cadena de búsqueda. Puedes usar el --page-number opción junto con todo el comando:

                      
pdfgrep --page-number --ignore-case Search_String FILENAME.pdf

                    
Visualización del número de página en el resultado de la búsqueda Visualización del número de página en el resultado de la búsqueda

También hay una forma de buscar en un archivo PDF protegido con contraseña. Mantenga el resto del comando igual y luego simplemente agregue --password junto con la contraseña del documento bloqueado.

                      
pdfgrep --password YOUR-PASSWORD Search_String FILENAME.pdf

                    

Resumen

Lo que hace que pdfgrep sea excelente, en mi opinión, es su similitud con el comando grep, lo que facilita las cosas a los usuarios, al no hacerles recordar nuevos comandos y opciones para básicamente la misma funcionalidad.

Referencias

Página del manual de Arch Linux en pdfgrep

Related Posts