Prezentare generală a ABBYY FineReader 12

Conversația va fi despre ABBYY FineReader 12, adică despre ultima sa versiune. Fără să privim prea departe, am ales cel mai faimos produs ABBYY, care, după meritul său, este perfect rusificat. Deja la prima vedere, Fine Reader (FR) dă impresia unui program cu suport bun pentru limba rusă: în acest sens, într-adevăr, totul se face la un nivel foarte decent, inclusiv informațiile de bază.

În primul rând, retrageți-vă. Întrebarea cum să convertiți întreaga arhivă sau o parte a arhivei în format digital este întotdeauna relevantă (și ce se înțelege, de fapt, prin cuvântul „digital”). Este puțin probabil ca cumpărarea unui scaner să rezolve toate problemele. Desigur, de foarte multe ori un disc sau mai multe cu software proprietar sunt furnizate împreună cu documentația pentru scaner. Cu toate acestea, deja în stadiul de igienizare, se dovedește că calitatea programului de scanare lasă de dorit, sau formatul în care se face salvarea nu este, din păcate, potrivit pentru stocare. De ce? Majoritatea formatelor grafice nu separă textul de spațiul non-text al documentului și, prin urmare, nu este posibil să copiați niciun pasaj dintr-un astfel de fișier.

În astfel de cazuri, programele funcționale de „recunoaștere a textului” vin în ajutor, ale căror capabilități includ, în special, extragerea textului dintr-o imagine.

Introducere în ABBYY FineReader

Pachet ABBYY Fine Reader 12- sistem de recunoaștere optică a textelor (Optical Character Recognition - OCR). Este conceput atât pentru introducerea automată a documentelor tipărite într-un computer, cât și pentru conversia documentelor și fotografiilor PDF în formate editabile. (din manualul programului)

Abrevierea „OCR” se aplică tuturor aplicațiilor de recunoaștere a datelor (nu doar text). Sursa pentru extragerea datelor poate fi un document tipărit sau electronic. Pe vremuri, nu cu mult timp în urmă, puțini oameni știau despre OCR, într-o formă sau alta, iar procesul de traducere a textului în formă electronică s-a transformat într-o adevărată rutină, până la retipărirea manuală a textului original. Astăzi, având un scaner plat (doar puțini oameni folosesc scanere manuale acasă) și cititor fin 12- fiți sigur - nu vor fi dificultăți în scanare și recunoaștere.

Începând cu a șasea versiune, FineReader acceptă importul și exportul în format PDF, patentat de Adobe. Mulți cititori au întâmpinat probabil dificultăți în conversia din acest format în oricare altul (doc, etc.), deoarece nu există atât de multe programe cu adevărat utile în acest domeniu (doar produsul fiică al ABBYY, PDF Transformer, merită atenție). Cert este că astfel de programe efectuează recunoașterea textului o singură dată, drept urmare „identitatea” rezultatului nu este deloc mare (în funcție de complexitatea documentului), plus formatarea documentului este destul de pierdută.

În cazul FineReader lucrurile stau diferit. A noua versiune a programului a introdus o tehnologie numită Document OCR. Se bazează pe principiul recunoașterii integrale a unui document: este analizat și recunoscut ca întreg, și nu pagină cu pagină. În același timp, tot felul de coloane, anteturi, fonturi, stiluri, note de subsol și imagini rămân intacte sau sunt înlocuite aproape de original.

Instalarea pachetului

Versiunea demo a Finereader 12 poate fi descărcată de pe site-ul Abbyy.ru, în secțiunea Descărcare, versiunea completă cu licență este distribuită pe un CD. Despre metodele de achiziție puteți afla pe același site în secțiunea „Cumpărați”.

Pe site-ul web pentru dezvoltatori ABBYY, puteți descărca o versiune demonstrativă a ABBYY FineReader versiunea 12 (sau o altă versiune actualizată)

ABBYY FineReader este distribuit în mai multe versiuni: Professional Edition, Corporate Edition, Site License Edition etc. Diferența dintre versiunea Professional și celelalte este că este conceput să funcționeze într-o rețea corporativă cu capacitatea de a lucra împreună la recunoașterea documentelor. În caz contrar, diferența este nesemnificativă și depinde de alegerea termenilor din acordul de licență.

Este greu de imaginat că acum 12 ani exista FineReader 2.0, care ocupa aproximativ 10 MB de spațiu pe disc. De-a lungul timpului, pachetul a „crescut” de zece ori, iar acum, la instalare, este nevoie de până la 300 MB. Mult sau puțin – judecă singur. Noul FR suportă 179 de limbaje de recunoaștere, printre care se numără limbaje artificiale puțin cunoscute (Ido, Interlingua, Occidental și Esperanto), limbaje de programare, formule etc. Să nu uităm de suportul pentru diverse formate și scripturi. Deci, dacă dintr-un motiv oarecare doriți să limitați spațiul ocupat de pachet, în timpul instalării, verificați doar acele componente care vor fi necesare în timpul funcționării.

Alegerea componentelor afectează durata instalării, care, totuși, nu ar trebui să dureze mult. În timpul procesului de instalare, vi se vor prezenta principalele caracteristici ale FR. După activare (pe Internet, prin e-mail, folosind codul primit etc.), programul este pregătit pentru lucru cu funcții complete. În modul demo, cu siguranță veți întâlni diverse restricții, care, din păcate, nu vă permit să utilizați pe deplin pachetul.

Interfață FineReader. Funcționalitate

Accesul la caracteristicile programului este disponibil atât cu ajutorul scripturilor care vor apărea în meniul principal imediat după procesul de instalare, cât și, de fapt, prin interfața principală.


Ecran de deschidere la lansarea FineReader

Aspectul programului de la versiune la versiune nu suferă modificări speciale: dezvoltatorii nu văd niciun motiv să-l schimbe drastic. O atenție considerabilă este acordată ergonomiei, ceea ce este vizibil în toate produsele ABBYY (Lingvo, PDF Transformer, FlexiCapture...). Cu alte cuvinte, interfața Fine Reader 12 este bine gândită și este destinată tuturor utilizatorilor, inclusiv începătorilor. Principiul „Obține rezultatul cu un singur clic” îi va atrage pe cei care nu sunt obișnuiți să configureze și să schimbe ceva. Pe de altă parte, utilizatorii mai experimentați pot regla FineReader prin dialogul de setări (Instrumente -> Opțiuni...). Singura avertizare: pentru o muncă confortabilă în aplicație, este de dorit să setați rezoluția ecranului la 1280x800, astfel încât toate instrumentele să fie întotdeauna la îndemână, așa cum se spune.

După pornirea programului Fine Reader, va apărea o fereastră cu butoane de acces rapid la funcțiile programului. Acest meniu este disponibil și prin meniul Instrumente -> ABBYY FineReader, butonul „Scripturi de bază” din colțul din dreapta al programului sau prin combinația de taste Ctrl+N (similar cu Word, unde această combinație deschide un nou document) .

Scanează către Microsoft Word:în cea de-a noua versiune de FineReader a apărut suportul pentru Microsoft Word 2007, care încă nu a devenit popular, la rândul său, pe bara de instrumente din aplicațiile Microsoft Office, în secțiunea de suplimente, după instalarea FR, o pictogramă roșie „de marcă”. apare.


Meniu pentru exportul unui document FineReader recunoscut
Selectarea limbilor pentru scanarea și recunoașterea documentelor

Pe lângă Microsoft Office, FR acceptă integrarea cu Microsoft Outlook, oferă exportul rezultatelor recunoașterii către aceleași Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect și Adobe Acrobat. Aceste caracteristici facilitează și accelerează într-o oarecare măsură lucrul cu programul, mai ales dacă trebuie să lucrați în el în mod regulat.

PDF sau imagini în Microsoft Word: recunoașteți datele din PDF - sau alt tip de fișier grafic acceptat de versiunea Finereader 12. Trebuie remarcat faptul că tehnologia de extragere a textului dintr-un fișier PDF în FR nu este doar o „peeling” a conținutului textului (stratul de text în PDF poate fi absent) din cel grafic. De fapt, tehnologia de recunoaștere este destul de complicată: după ce a analizat conținutul documentului, programul decide ce și cum să facă cu textul: doar extrage sau recunoaște și așa mai departe pentru fiecare fragment de text.

Scanați în Microsoft Excel: scanarea în XLS (format Microsoft Excel) poate fi justificată dacă imaginea scanată conține tabele.

Scanare în PDF: Există multe motive pentru a scana în PDF. Una dintre ele este securitatea: este singurul format familiar FR care poate fi configurat să fie protejat prin parolă. O parolă este setată nu numai pentru a deschide un document, ci și pentru a-l imprima și a altor operațiuni. Este posibil să alegeți unul dintre cele trei niveluri de criptare: 40 de biți, 128 de biți pe baza standardului RC4, nivelul de 128 de biți pe baza standardului AES (Advanced Encryption Standard).

Convertiți fotografia în Microsoft Word: conversia unui fișier dintr-un format grafic (și poate fi un PDF sau o imagine cu mai multe pagini) în DOC / DOCX.

Deschideți în Fine Reader: deschideți un fișier grafic (PDF , BMP , PCX , DCX , JPEG , JPEG 2000, TIFF , PNG ) pentru recunoaștere de către FineReader.

Lucrează în FineReader

Acum - pe scurt despre caracteristicile programului. Întregul proces este împărțit în scanare, recunoaștere și salvare a rezultatelor. După ce ați ales tipul de acțiune a programului, ați specificat fișierul sau dispozitivul de scanat, FineReader își îndeplinește sarcina pas cu pas, ceea ce, apropo, necesită destul de mult resurse pentru procesorul central.

Dacă sunteți un fericit proprietar al unui procesor dual-core, atunci lucrând în pachetul Fine Reader 12, puteți aprecia puterea vitezei computerului dvs. Cert este că FR, după ce a detectat un procesor dual-core, recunoaște nu una, ci două pagini dintr-un document simultan, în paralel. Un fleac - dar frumos.

Mai întâi vine scanarea, apoi recunoașterea și exportul unui document temporar în formatul selectat.


Procesul de recunoaștere a documentelor PDF

Scanare. Nu este nevoie să faceți setări preliminare în aplicația FineReader (cu excepția alegerii unui cititor) înainte de scanare. De aceea au fost inventate scripturile: sunt concepute pentru a simplifica execuția aceluiași tip de acțiuni.

Recunoaştere. Simplificarea a afectat și alte lucruri mărunte. Deci, dacă ne amintim versiunile anterioare ale programului, înainte trebuia să schimbăm manual limba (limbi, dacă erau mai multe) documentului. Acum acest lucru se întâmplă automat, deși nu întotdeauna. În acest din urmă caz, FR se oferă discret să verifice limba documentului.

Revenind la tehnologia de recunoaștere FR: de ce programul scanează mai întâi întregul document, și nu pagină cu pagină? După cum s-a menționat deja, textul este recunoscut pe baza întregului conținut: sunt selectate fonturi similare ca dimensiune/font, tabele și chenaruri, indentări etc.

Nu fi surprins dacă FineReader 12 vă dă un mesaj prin care vă spune că pagina nu poate fi recunoscută deoarece nu a fost găsită nicio zonă de text. De dragul experimentului, am făcut o fotografie a unei zone de document text pe un telefon mobil de pe ecranul LCD (cu toate acestea, știind că rezultatul este deja în avans). Fine Reader 12 nu a recunoscut textul din imagine, pentru că era evident de o asemenea calitate încât clar nu este suficient pentru asta. La a doua vizită, am fotografiat pagina de text cu o cameră digitală în iluminare normală.

FineReader a recunoscut pasajul fără probleme, păstrând formatarea și marcând cu markere unele puncte sau caractere îndoielnice care pot avea variante de ortografie.

După cum puteți vedea în imagine, acestea sunt în principal puncte, cratime, virgule - în general, caractere mici. În plus, se vede clar că programul a ținut cont de denivelările, curburele paginii fotografiate și a aliniat liniile de text. Concluzie - FR a făcut o treabă excelentă cu sarcina sa, deși nu foarte dificilă.

Ocazional, unele puncte minore pot trece neobservate de programul Fine Reader, dar pot fi corectate cu ușurință manual. Din fericire, pachetul are propriul editor WYSIWYG, ale cărui capabilități sunt destul de suficiente pentru a face editarea finală a documentului. Verificarea ortografică este, de asemenea, disponibilă.

Cum să îmbunătățiți acuratețea recunoașterii, astfel încât mai târziu să vă ocupați de editarea textului într-o măsură mai mică? În primul rând, puteți conecta un dicționar Microsoft Word personalizat. Adevărat, este dificil să judeci creșterea preciziei, cu excepția poate creșterii vocabularului unui corector ortografic (un modul care verifică ortografia și gramatica). Printre altele, pentru a îmbunătăți recunoașterea, este logic să vă familiarizați cu setările programului (Instrumente -> Opțiuni) și să selectați unul dintre cele două moduri:

recunoaștere atentă- poate fi selectat la recunoașterea documentelor de orice „complexitate”: cu tabele fără linii de grilă, text, grafice, tabele pe fundal colorat etc. Poate ajuta și cu o sursă de recunoaștere de calitate scăzută

recunoaștere rapidă- acest mod este recomandat pentru procesarea unor volume mari de documente cu un design simplu, sau daca timpul nu permite recunoasterea aprofundata. În cele mai multe cazuri, când aveți text tipărit negru pe fundal alb, vă puteți opri la o recunoaștere rapidă.

În general, îmbunătățirea calității lucrării FineReader este un subiect separat de discuție, ale cărui detalii le puteți afla din ajutorul oficial, și anume în secțiunea „Cum să îmbunătățiți rezultatele”.

Salvarea unui document. Ultima etapă de lucru în Fine Reader 12 este salvarea rezultatului final într-un anumit format grafic/text. Setările preliminare de salvare pot fi specificate în opțiunile FR: Instrumente -> Opțiuni, fila Salvare. Fiecare format are propriile setări. Când salvați în format DOCX, ar trebui să aveți grijă de compatibilitatea formatului (fișierele DOCX nu sunt recunoscute în Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

Cititor de capturi de ecran ABBYY

Dezvoltatorilor le place adesea să adauge mici utilități de servicii la multe pachete mari. Să presupunem că binecunoscuta aplicație de inscripționare a discurilor Nero include un set de 3 până la 5 utilitare care vă permit să faceți lucruri pe care nici chiar Nero nu le poate face. Prezentare generală (aici puteți descărca ca parte a Fine Reader 12).

În ceea ce privește FineReader, o mică aplicație Screenshot Reader se găsește în compoziția sa. Cu acesta, îl puteți converti rapid în formatul dorit folosind FR. Programul este disponibil prin meniul Start (Start -> Toate programele -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Posibilitățile Screenshot Reader sunt oarecum mai largi decât ar părea la prima vedere. (În caz contrar, ar fi posibil să faci doar apăsând tasta „PrintScreen” de pe tastatură). Pe lângă faptul că Screenshot Reader face o captură de ecran (sau mai degrabă, o zonă selectată a ecranului), programul este strâns integrat cu FR.

Când faceți clic pe butonul „Snapshot” din panoul Cititor de capturi de ecran, cursorul își schimbă forma și instrumentul de selectare a ecranului se activează. Zona selectată a imaginii este încadrată pentru recunoașterea ulterioară a textului (pornește automat).

În lista derulantă, puteți selecta acțiunea dorită: de fapt, Screenshot Reader duplică scripturi FR rapide, cu diferența că în loc de un instantaneu de la scaner, se primește o captură de ecran ca intrare.

Trebuie remarcat faptul că programul, împreună cu întregul pachet, necesită activare. La înregistrarea unui produs, ABBYY FineReader 12 Professional Edition Screenshot Reader este oferit gratuit, ca „bonus”.

Concluzie

FineReader este un program indispensabil pentru scanarea și recunoașterea datelor grafice. Interfața în limba rusă și disponibilitatea setărilor nu vor speria un utilizator neexperimentat. Suportul pentru cele mai recente formate, tehnologii inovatoare și, ca urmare, recunoașterea de înaltă calitate fac din program cea mai bună alegere, mai ales că ABBYY FineReader încă nu are concurenți în acest domeniu.

Taste rapide FineReader 12

  • Creați un nou document ABBYY FineReader-CTRL+N
  • Deschideți un document ABBYY FineReader 12 - CTRL+SHIFT+N
  • Salvați pagini-CTRL+S
  • Salvați imaginea în fișier- CTRL+ALT+S
  • Recunoașteți toate paginile unui document- CTRL+SHIFT+R
  • Închideți pagina curentă- CTRL+F4
  • Recunoașteți paginile selectate ale unui document ABBYY FineReader-CTRL+R
  • Deschideți Managerul de scenarii- CTRL+T
  • Deschideți caseta de dialog Fine Reader Options- CTRL+SHIFT+O
  • Deschide Ajutor- F1
  • Accesați fereastra documentului-ALT+1
  • Accesați fereastra Imagine- ALT+2
  • Accesați fereastra Text- ALT+3
  • Accesați fereastra Prim-plan- ALT+4