Pagina principala » Descărcare gratuită de software » Extrageți textul din fișiere PDF și fișiere imagine

    Extrageți textul din fișiere PDF și fișiere imagine

    Aveți un document PDF de care doriți să extrageți întregul text? Ce se întâmplă cu fișierele imagine ale unui document scanat pe care doriți să îl convertiți în text editabil? Acestea sunt câteva dintre cele mai frecvente probleme pe care le-am văzut la locul de muncă când lucrez cu fișiere.

    În acest articol, voi vorbi despre câteva moduri diferite în care puteți încerca să extrageți text dintr-un PDF sau dintr-o imagine. Rezultatele dvs. de extracție vor varia în funcție de tipul și calitatea textului din PDF sau imagine. De asemenea, rezultatele dvs. vor varia în funcție de instrumentul pe care îl utilizați, deci este mai bine să încercați cât mai multe opțiuni de mai jos pentru a obține cele mai bune rezultate.

    Extrage text din imagine sau PDF

    Cea mai simplă și mai rapidă modalitate de a începe este să încercați un serviciu online de extragere a textului PDF. Acestea sunt, în mod normal, gratuite și vă pot oferi exact ceea ce căutați fără să trebuiască să instalați nimic pe computer. Iată două pe care le-am folosit cu rezultate foarte bune până la rezultate excelente:

    ExtractPDF

    ExtractPDF este un instrument gratuit pentru a capta imagini, texte și fonturi dintr-un fișier PDF. Singura limitare este că dimensiunea maximă pentru fișierul PDF este de 10 MB. E un pic mic; dacă aveți un fișier mai mare, încercați câteva din celelalte metode de mai jos. Alegeți fișierul dvs. și apoi faceți clic pe Trimite fișier buton. Rezultatele sunt, în mod normal, foarte rapide și ar trebui să vedeți o previzualizare a textului când faceți clic pe fila Text.

    Este, de asemenea, un avantaj frumos adăugat că extrage imagini din fișierul PDF prea, doar în cazul în care aveți nevoie de ele! În general, instrumentul online funcționează excelent, dar am parcurs câteva documente PDF care îmi dau rezultate amuzante. Textul este extras foarte bine, dar din anumite motive va avea o rupere de linie după fiecare cuvânt! Nu este o problemă uriașă pentru un fișier PDF scurt, dar cu siguranță o problemă pentru fișiere cu mult text. Dacă vi se întâmplă acest lucru, încercați următorul instrument.

    OCR online

    OCR online a avut de obicei tendința de a lucra pentru documentele care nu au fost convertite corespunzător cu ExtractPDF, deci este o idee bună să încercați ambele servicii pentru a vedea care dintre ele vă oferă rezultate mai bune. OCR on-line are, de asemenea, unele caracteristici mai frumoase, care se pot dovedi utile oricui, cu un fișier PDF mare, care are nevoie doar de a converti text pe câteva pagini, mai degrabă decât întregul document.

    Primul lucru pe care doriți să-l faceți este să continuați și să creați un cont gratuit. Este un pic enervant, dar dacă nu creați contul gratuit, acesta va converti doar parțial PDF-ul dvs., mai degrabă decât întregul document. De asemenea, în loc să puteți încărca doar un document de 5 MB, puteți încărca până la 100 MB pe fișier cu un cont.

    Mai întâi, alegeți o limbă și apoi alegeți tipul de formate de ieșire pe care doriți pentru fișierul convertit. Aveți câteva opțiuni și puteți alege mai mult de unul dacă doriți. Sub Document multi-pag, puteți selecta Numere de pagini apoi alegeți numai paginile pe care doriți să le convertiți. Apoi selectați fișierul și faceți clic pe acesta Convertit!

    După conversie, veți fi adus la secțiunea Documente (dacă sunteți conectat), unde puteți vedea câte pagini gratuite disponibile și link-uri pentru a descărca fișierele convertite. Se pare că aveți doar 25 de pagini gratuit o zi, deci dacă aveți nevoie de mai mult de atât, va trebui să așteptați un pic sau să cumpărați mai multe pagini.

    OCR online a făcut o treabă excelentă de conversie a fișierelor PDF, deoarece a reușit să mențină aspectul actual al textului. În testul meu, am luat un doc Word care folosea gloanțe, dimensiuni diferite de fonturi etc. și a transformat-o într-un PDF. Apoi am folosit OCR online pentru ao converti în format Word și a fost de aproximativ 95% la fel ca originalul. E destul de impresionant pentru mine.

    În plus, dacă doriți să convertiți o imagine în text, atunci OCR online poate face acest lucru la fel de ușor ca extragerea textului din fișiere PDF.

    Gratuit OCR online

    Deoarece vorbea despre imagine în text OCR, permiteți-mi să menționez un alt site bun care funcționează foarte bine pe imagini. OCR gratuit online a fost foarte bun și foarte precis când extrag text din imaginile testului meu. Am luat câteva fotografii din iPhone-ul meu de pagini din cărți, broșuri, etc și am fost surprins de cât de bine a fost capabil de a converti textul.

    Alegeți fișierul dvs. și apoi faceți clic pe butonul Încărcați. În ecranul următor, există câteva opțiuni și o previzualizare a imaginii. Poți să-l prindă dacă nu vrei să scrii totul. Apoi, dați clic pe butonul OCR și textul dvs. convertit va apărea sub previzualizarea imaginii. De asemenea, nu are nici o limitare, ceea ce este foarte frumos.

    În plus față de serviciile online, există două convertoare PDF freeware pe care vreau să le menționez în cazul în care aveți nevoie de software care rulează local pe computer pentru a efectua conversiile. Cu ajutorul serviciilor online, veți avea întotdeauna nevoie de o conexiune la Internet și acest lucru nu este posibil pentru toată lumea. Cu toate acestea, am observat că calitatea conversiilor de la programele freeware a fost mult mai slabă decât cea a site-urilor web.

    A-PDF Text Extractor

    A-PDF Text Extractor este gratuit, care face o treabă destul de bună de extragere a textului din fișiere PDF. După ce îl descărcați și îl instalați, faceți clic pe butonul Deschidere pentru a alege fișierul PDF. Apoi, faceți clic pe Extragere text pentru a începe procesul.

    Acesta vă va cere o locație pentru a stoca fișierul de ieșire text și apoi va începe extragerea. De asemenea, puteți da clic pe Opțiune care vă permite să alegeți numai anumite pagini de extras și tipul de extragere. A doua opțiune este interesantă deoarece extrage textul în diferite planuri și merită să încercați toate cele trei pentru a vedea care dintre ele vă oferă cea mai bună performanță.

    Pilot PDF2Text

    PDF2Text Pilot face o lucrare ok de extragere a textului. Nu are opțiuni; trebuie doar să adăugați fișiere sau foldere, să convertiți și să sperați pentru cele mai bune. A funcționat bine pe anumite fișiere PDF, dar pentru majoritatea acestora au existat numeroase probleme.

    Doar faceți clic pe Adăugare fișiere și apoi faceți clic pe Convertit. După finalizarea conversiei, dați clic pe Răsfoiți pentru a deschide fișierul. Kilometrajul va varia în funcție de acest program, deci nu vă așteptați prea mult.

    De asemenea, merită menționat faptul că, dacă vă aflați într-un mediu corporativ sau puteți obține mâna pe o copie a Adobe Acrobat de la locul de muncă, atunci puteți obține cu adevărat rezultate mult mai bune. Acrobat nu este în mod evident gratuit, dar are opțiuni pentru a converti PDF în Word, Excel și în format HTML. De asemenea, lucrează cel mai bine la menținerea structurii documentului original și la convertirea textului complicat.