Cum pot copia textul dintr-un PDF în timp ce păstrez formatarea?

PDF, formatul documentului omniprezent, este excelent pentru partajarea documentelor în timp ce se păstrează fonturile, imaginile și aspectul general pe platforme. Există însă o modalitate ușoară de a păstra acea foarte mare formatare atunci când copiați și lipiți textul din document?

Sesiunea de întrebări și răspunsuri din ziua de astăzi vine de la amabilitatea SuperUser - o subdiviziune a Stack Exchange, o grupare bazată pe comunitate a site-urilor web Q & A.

Intrebarea

Editorul SuperUser Colen caută o modalitate de a extrage textul din PDF-uri în timp ce păstrează formatul:

Când copiez text dintr-un fișier PDF și într-un editor de text, acesta se sfârșește prin diverse moduri. Formatarea cu caractere aldine și cursive este pierdută; rupturile liniei moi într-un paragraf de text sunt convertite la pauze de linie dure; liniuțele pentru a rupe un cuvânt pe două rânduri sunt păstrate chiar și atunci când nu ar trebui să fie; și citatele unice și duble sunt înlocuite cu? semne.

În mod ideal, aș dori să pot copia text dintr-un PDF și să fi transformat formatarea în coduri HTML, "citate inteligente" convertite în "și" și pauze de linie executate corect. Există vreo modalitate de a face acest lucru?

Există o modalitate rapidă și ușoară pentru Colen (și pentru restul dintre noi) de a obține textul fără a sacrifica formatul?

Răspunsul

Contribuitorul SuperUser Frabjous oferă o soluție combinată cu o doză mare de precauție:

În primul rând, trebuie să înțelegeți ce este un PDF. PDF-urile sunt concepute să imite o pagină tipărită și sunt proiectate doar ca format de ieșire, nu ca format de intrare. un PDF este în principiu o hartă care conține locația exactă a caracterelor (litere individuale sau punctuație, etc.) sau imagini. În majoritatea cazurilor, un PDF nu stochează nici măcar informații despre unde se termină un cuvânt și altul începe, mai puține lucruri precum pauze moi sau pauze dure pentru terminațiile paragrafelor.

(Câteva PDF-uri recente stochează câteva informații despre aceste chestii, dar aceasta este o tehnologie nouă și veți fi norocoși să găsiți PDF-uri de genul acesta. Chiar dacă ați făcut acest lucru, vizualizatorul dvs. PDF ar putea să nu știe despre el.)

Oricum, este de datoria software-ului tău să implementeze un fel de "inteligență artificială" pentru a extrage doar din locațiile personajelor individuale ceea ce este un cuvânt, ce este un paragraf și așa mai departe. Software-ul diferit va face acest lucru mai bine decât altele și va depinde și de modul în care a fost realizat PDF-ul. În orice caz, nu trebuie să așteptați niciodată rezultate perfecte. Afișarea PDF-ului de ieșire nu este identică cu documentul sursă. Este mai bine să încercați să obțineți acest lucru dacă puteți.

Soluția standard pentru problema dvs. este să utilizați Adobe Acrobat Professional (cea scumpă, nu cititorul gratuit) pentru a converti PDF-ul în HTML. Chiar și asta nu va obține rezultate perfecte.

Există software liber care poate fi folosit pentru a extrage textul din PDF-uri cu unele din formatarea intactă, dar din nou, nu vă așteptați la rezultate perfecte. Vedeți, de exemplu, calibrul (care poate converti în format RTF), pdftohtml / pdfreflow sau procesorul de text AbiWord (cu toate pluginurile de import / export activate). Există, de asemenea, un plugin de import pentru PDF pentru OpenOffice.

Dar vă rog să nu vă așteptați la perfecțiunea cu aceste rezultate. Te duci împotriva cerealelor aici. PDF-ul nu este doar un format de intrare editabil.

Dacă întâmpinați dificultăți în a decide cu ce instrument să începeți, Caliber este un adevărat document cuțit elvețian. Puteți, de asemenea, să-l utilizați pentru a converti fișiere PDF pentru utilizare pe cititorul de cărți electronice și pentru a vă organiza biblioteca de cărți electronice / de documente.

Aveți ceva de adăugat la explicație? Sunați în comentariile. Doriți să citiți mai multe răspunsuri de la alți utilizatori de tehnologie Stack Exchange? Check out discuția completă aici.