Pagina principala » HOWTO » Cum se convertește un fișier PDF în text editabil Utilizând linia de comandă în Linux

    Cum se convertește un fișier PDF în text editabil Utilizând linia de comandă în Linux

    Există mai multe motive pentru care este posibil să doriți să convertiți un fișier PDF în text editabil. Poate că trebuie să revizuiți un document vechi și tot ce aveți este versiunea PDF a acestuia. Este ușor să convertiți fișiere PDF în Windows, dar dacă utilizați Linux?

    Fără griji. Vă vom arăta cum să convertiți ușor fișierele PDF în text editabil folosind un instrument de linie de comandă numit pdftotext, care face parte din pachetul "poppler-utils". Acest instrument poate fi deja instalat. Pentru a verifica dacă pdftotext este instalat în sistem, apăsați "Ctrl + Alt + T" pentru a deschide o fereastră terminal. Tastați următoarea comandă la prompt și apăsați pe "Enter".

    dpkg -s poppler-utils

    NOTĂ: Când spunem să tastați ceva în acest articol și există citate în jurul textului, NU introduceți ghilimele, dacă nu specificăm altfel.

    Dacă pdftotext nu este instalat, tastați următoarea comandă la prompt și apăsați "Enter".

    sudo apt-get instala poppler-utils

    Introduceți parola când vi se solicită și apăsați pe "Enter".

    Există mai multe instrumente disponibile în pachetul poppler-utils pentru conversia PDF-urilor în diferite formate, manipularea fișierelor PDF și extragerea informațiilor din fișiere.

    Următoarea este comanda de bază pentru conversia unui fișier PDF într-un fișier text editabil. Apăsați "Ctrl + Alt + T" pentru a deschide o fereastră Terminal, tastați comanda la prompt și apăsați "Enter".

    pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Schimbați calea fiecărui fișier pentru a corespunde locației și numelui fișierului PDF original și unde doriți să salvați fișierul text rezultat. De asemenea, schimbați numele fișierelor pentru a corespunde numelor fișierelor dvs..

    Fișierul text este creat și poate fi deschis doar așa cum ați putea deschide orice alt fișier text din Linux.

    Textul convertit poate avea pauze de linie în locurile pe care nu le doriți. Ștergerea liniilor se introduce după fiecare linie de text din fișierul PDF.

    Puteți păstra aspectul documentului dvs. (anteturi, subsoluri, paginare etc.) din fișierul PDF original din fișierul text convertit utilizând pavilionul "-layout".

    pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Dacă doriți să convertiți doar o gamă de pagini într-un fișier PDF, utilizați steagurile "-f" și "-l" (un litere mici "L") pentru a specifica prima și ultima pagină din intervalul pe care doriți să îl convertiți.

    pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Pentru a converti un fișier PDF protejat și criptat cu o parolă de proprietar, utilizați pavilionul "-opw" (primul caracter din drapel este o literă "O", nu un zero).

    pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Modificați "parola" la cea utilizată pentru a proteja fișierul PDF original care este convertit. Asigurați-vă că există citate simple, nu duble, în jurul valorii de "parola".

    Dacă fișierul PDF este protejat și criptat cu o parolă de utilizator, utilizați pavilionul "-upw" în locul pavilionului "-opw". Restul comenzii este aceeași.

    De asemenea, puteți specifica tipul de caracter sfârșit de linie care este aplicat textului convertit. Acest lucru este util în special dacă intenționați să accesați fișierul pe un alt sistem de operare, cum ar fi Windows sau Mac. Pentru a face acest lucru, utilizați pavilionul "-eol" (caracterul de mijloc din drapel este o literă mică "O", nu un zero) urmată de un spațiu și de tipul caracterului de sfârșit de linie pe care doriți să îl utilizați (" unix "," dos "sau" mac ").

    NOTĂ: Dacă nu specificați un nume de fișier pentru fișierul text, pdftotext folosește automat baza de fișier PDF și adaugă extensia ".txt". De exemplu, "file.pdf" va fi convertit în "file.txt". Dacă fișierul text este specificat ca "-", textul convertit este trimis la stdout, ceea ce înseamnă că textul este afișat în fereastra Terminal și nu este salvat într-un fișier.

    Pentru a închide fereastra Terminal, faceți clic pe butonul "X" din colțul din stânga sus.

    Pentru mai multe informații despre comanda pdftotext, tastați "man page pdftotext" la promptul dintr-o fereastră Terminal.