Extrageți textul din fișiere PDF și imagine


Aveți un document PDF de care doriți să extrageți întregul text? Ce se întâmplă cu fișierele imagine ale unui document scanat pe care doriți să îl convertiți în text editabil? Acestea sunt câteva dintre cele mai frecvente probleme pe care le-am văzut la locul de muncă atunci când lucrez cu fișiere. În acest articol, voi vorbi despre mai multe moduri diferite în care puteți încerca să extrageți text dintr-un fișier PDF sau dintr-o imagine. Rezultatele dvs. de extracție vor varia în funcție de tipul și calitatea textului din PDF sau imagine. De asemenea, rezultatele dvs. vor varia în funcție de instrumentul pe care îl utilizați, deci este mai bine să încercați cât mai multe opțiuni de mai jos pentru a obține cele mai bune rezultate.

Extrageți textul din imagine sau PDF

Cea mai simplă și mai rapidă modalitate de a începe este să încercați un serviciu online de extragere a textului PDF. Acestea sunt, în mod normal, gratuite și vă pot oferi exact ceea ce căutați fără să trebuiască să instalați nimic pe computer. Iată două care am folosit cu rezultate foarte bune la rezultate excelente:

ExtractPDF

extractpdf

s>este un instrument gratuit pentru a apuca imagini, text și fonturi dintr-un fișier PDF. Singura limitare este că dimensiunea maximă pentru fișierul PDF este de 10 MB. E un pic mic; deci dacă aveți un fișier mai mare, încercați unele dintre celelalte metode de mai jos. Alegeți fișierul dvs., apoi faceți clic pe butonul Trimiteți fișierul. Rezultatele sunt în mod normal foarte rapide și ar trebui să vedeți o previzualizare a textului când faceți clic pe fila Text.

download text

adaugă beneficii pe care le extrage imagini din fișierul PDF prea, doar în cazul în care aveți nevoie de ele! În ansamblu, instrumentul online funcționează excelent, dar am parcurs câteva documente PDF care îmi dau o ieșire amuzantă. Textul este extras foarte bine, dar din anumite motive va avea o ruptură după fiecare cuvânt! Nu este o problemă uriașă pentru un fișier PDF scurt, dar cu siguranță o problemă pentru fișiere cu mult text. Dacă se întâmplă acest lucru, încercați instrumentul următor.

OCR online

OCR online de obicei a avut tendința de a lucra pentru documentele care nu au fost convertite corect cu ExtractPDF , deci este o idee bună să încercați ambele servicii pentru a vedea care dintre ele vă oferă rezultate mai bune. OCR online are, de asemenea, unele caracteristici mai frumoase, care se pot dovedi utile pentru oricine are un fișier PDF mare, care trebuie doar să convertească textul pe câteva pagini, mai degrabă decât întregul document. Primul lucru pe care doriți să-l faceți este să mergeți și creați un cont gratuit. Este un pic enervant, dar dacă nu creați contul gratuit, va converti doar parțial PDF-ul dvs., nu întregul document. De asemenea, în loc să puteți încărca doar un document de 5 MB, puteți încărca până la 100 MB pe fișier cu un cont.

online ocr

, alegeți o limbă și apoi alegeți tipul de formate de ieșire pe care doriți pentru fișierul convertit. Aveți câteva opțiuni și puteți alege mai mult de unul dacă doriți. Sub Document multipage, puteți selecta Numere de paginăși apoi alegeți numai paginile pe care doriți să le convertiți. Apoi selectați fișierul și faceți clic pe Conversie!

După conversie, veți fi aduși în secțiunea Documente (dacă sunteți conectat), unde puteți vedea câte pagini gratuite disponibile pe care le-ați lăsat și link-uri pentru a descărca fișierele convertite. Se pare că aveți doar 25 de pagini gratuit pe zi, deci dacă aveți nevoie de mai mult de atât, va trebui să așteptați un pic sau să cumpărați mai multe pagini.

OCR online a făcut o treabă excelentă de conversie PDF-urile mele pentru că a reușit să mențină aspectul real al textului. În testul meu, am luat un doc Word care folosea gloanțe, dimensiuni diferite de caractere, etc și a transformat-o într-un PDF. Apoi am folosit OCR online pentru ao converti în format Word și a fost de aproximativ 95% la fel ca originalul. Acest lucru este destul de impresionant pentru mine.

În plus, dacă doriți să convertiți o imagine în text, atunci OCR online poate face acest lucru la fel de ușor ca extragerea textului din fișiere PDF.

Gratuit OCR online

Din moment ce vorbea despre imagine în text OCR, permiteți-mi să menționez un alt site bun care funcționează foarte bine pe imagini. Free OCR online a fost foarte bun și foarte precis atunci când extrag text din imaginile testului meu. Am luat câteva fotografii din iPhone-ul meu de pagini din cărți, broșuri, etc și am fost surprins de cât de bine a fost capabil de a converti textul.

free online ocr

Alegeți fișierul dvs. și apoi faceți clic pe butonul Încărcați. În ecranul următor, există câteva opțiuni și o previzualizare a imaginii. Poți să-l prindă dacă nu vrei să scrii totul. Apoi, dați clic pe butonul OCR și textul dvs. convertit va apărea sub previzualizarea imaginii. De asemenea, nu are nicio limitare, ceea ce este foarte frumos. În plus față de serviciile online, există două convertoare PDF gratuite pe care vreau să le menționez în cazul în care aveți nevoie de software care rulează local pe computer pentru a efectua conversiile. Cu serviciile online, veți avea întotdeauna nevoie de o conexiune la Internet și acest lucru nu este posibil pentru toată lumea. Cu toate acestea, am observat că calitatea conversiilor din programele freeware a fost mult mai slabă decât cea a site-urilor.

A-PDF Extractor de text

A-PDF Text Extractor este freeware care face o treabă destul de bună de extragere a textului din fișiere PDF. Odată ce o descărcați și o instalați, faceți clic pe butonul Deschidere pentru a alege fișierul PDF. Apoi, faceți clic pe Extras text pentru a începe procesul.

apdf extractor

Va ​​întreba o locație pentru a stoca fișierul de ieșire text și apoi va începe extragerea . De asemenea, puteți să faceți clic pe butonul Opțiune, care vă permite să alegeți numai anumite pagini de extras și tipul de extragere. A doua opțiune este interesantă, deoarece extrage textul în diferite machete și merită să încercați toate cele trei pentru a vedea care dintre cele care vă oferă cea mai bună performanță.

Pilot PDF2Text

PDF2Text Pilot face o lucrare ok de extragere a textului. Nu are opțiuni; trebuie doar să adăugați fișiere sau foldere, să convertiți și să sperați pentru cele mai bune. A funcționat bine pe unele fișiere PDF, însă pentru majoritatea acestora au existat numeroase probleme.

pdf2text

Doar faceți clic pe Adăugați fișiere, >Conversie. După finalizarea conversiei, dați clic pe Răsfoiți pentru a deschide fișierul. Kilometrajul va varia în funcție de acest program, deci nu vă așteptați prea mult.

De asemenea, merită menționat faptul că, dacă vă aflați într-un mediu corporativ sau dacă vă puteți pune mâna pe o copie a Adobe Acrobat de la serviciu, atunci puteți obține cu adevărat rezultate mult mai bune. Acrobat nu este în mod evident gratuit, dar are opțiuni pentru a converti PDF în Word, Excel și în format HTML. Este, de asemenea, cel mai bun lucru de a menține structura documentului original și de a converti text complicat.

Postări asemănatoare:


13.11.2014