Przegląd programu ABBYY FineReader 12

Rozmowa będzie dotyczyła programu ABBYY FineReader 12, czyli jego najnowszej wersji. Nie szukając zbyt daleko wybraliśmy najsłynniejszy produkt firmy ABBYY, który na swoje zasługi jest doskonale zrusyfikowany. Już na pierwszy rzut oka Fine Reader (FR) sprawia wrażenie programu z dobrym wsparciem w języku rosyjskim: pod tym względem wszystko odbywa się na bardzo przyzwoitym poziomie, w tym informacje podstawowe.

Najpierw wycofaj się. Pytanie, jak przekonwertować całość lub część archiwum do formatu cyfrowego, jest zawsze aktualne (i co właściwie oznacza słowo „cyfrowy”). Jest mało prawdopodobne, że zakup skanera rozwiąże wszystkie problemy. Oczywiście bardzo często wraz z dokumentacją skanera dostarczany jest dysk lub kilka dysków z własnym oprogramowaniem. Jednak już na etapie sanityzacji okazuje się, że jakość programu skanującego pozostawia wiele do życzenia, albo format, w jakim dokonywany jest zapis, niestety nie nadaje się do przechowywania. Czemu? Większość formatów graficznych nie oddziela tekstu od nietekstowej przestrzeni dokumentu, dlatego nie ma możliwości skopiowania żadnego fragmentu z takiego pliku.

W takich przypadkach na ratunek przychodzą funkcjonalne programy „rozpoznawania tekstu”, których możliwości obejmują w szczególności wyodrębnianie tekstu z obrazu.

Wprowadzenie do programu ABBYY FineReader

Pakiet ABBYY Fine Reader 12- system optycznego rozpoznawania tekstów (Optical Character Recognition - OCR). Przeznaczony jest zarówno do automatycznego wprowadzania drukowanych dokumentów do komputera, jak i do konwertowania dokumentów PDF i zdjęć do formatów edytowalnych (z instrukcji programu)

Skrót „OCR” dotyczy wszystkich aplikacji do rozpoznawania danych (nie tylko tekstu). Źródłem wyodrębniania danych może być dokument drukowany lub elektroniczny. Kiedyś, nie tak dawno, niewiele osób wiedziało o OCR w takiej czy innej formie, a proces tłumaczenia tekstu na formę elektroniczną zamienił się w prawdziwą rutynę, aż do ręcznego przedruku oryginalnego tekstu. Obecnie posiadanie skanera płaskiego (tylko kilka osób używa w domu skanerów ręcznych) i dobry czytelnik 12- bądź pewny - nie będzie trudności ze skanowaniem i rozpoznawaniem.

Począwszy od szóstej wersji, FineReader obsługuje import i eksport do formatu PDF, opatentowanego przez firmę Adobe. Wielu czytelników prawdopodobnie napotkało trudności z konwersją z tego formatu na jakikolwiek inny (doc, itp.), ponieważ w tej dziedzinie nie ma zbyt wielu naprawdę przydatnych programów (na uwagę zasługuje tylko produkt-córka firmy ABBYY, PDF Transformer). Faktem jest, że takie programy wykonują rozpoznawanie tekstu tylko raz, w wyniku czego „tożsamość” wyniku nie jest wcale duża (w zależności od złożoności dokumentu), a formatowanie dokumentu jest dość utracone.

W przypadku programu FineReader sprawy mają się inaczej. Dziewiąta wersja programu wprowadziła technologię o nazwie Document OCR. Opiera się na zasadzie integralnego rozpoznania dokumentu: jest on analizowany i rozpoznawany jako całość, a nie strona po stronie. Jednocześnie wszelkiego rodzaju kolumny, nagłówki, czcionki, style, przypisy i obrazy pozostają nienaruszone lub są zastępowane blisko oryginału.

Instalacja pakietu

Wersję demonstracyjną programu Finereader 12 można pobrać ze strony internetowej Abbyy.ru, w dziale Download pełna licencjonowana wersja jest dystrybuowana na płycie CD. Możesz dowiedzieć się o sposobach zakupu na tej samej stronie w dziale "Kup".

Ze strony programistów firmy ABBYY możesz pobrać wersję demonstracyjną programu ABBYY FineReader w wersji 12 (lub inną aktualną wersję)

Program ABBYY FineReader jest rozpowszechniany w kilku wersjach: Professional Edition, Corporate Edition, Site License Edition itp. Różnica między wersją Professional a innymi polega na tym, że jest przeznaczony do pracy w sieci korporacyjnej z możliwością wspólnej pracy nad rozpoznawaniem dokumentów. W przeciwnym razie różnica jest nieznaczna i zależy od wyboru warunków umowy licencyjnej.

Trudno sobie wyobrazić, że 12 lat temu istniał FineReader 2.0, który zajmował około 10 MB miejsca na dysku. Z biegiem czasu pakiet „rozrósł się” dziesięciokrotnie i teraz po zainstalowaniu zajmuje do 300 MB. Dużo lub mało - oceń sam. Nowy FR obsługuje 179 języków rozpoznawania, wśród których znajdują się mało znane sztuczne języki (Ido, Interlingua, Occidental i Esperanto), języki programowania, formuły itp. Nie zapominajmy o wsparciu dla różnych formatów i skryptów. Jeśli więc z jakiegoś powodu chcesz ograniczyć miejsce zajmowane przez pakiet, podczas instalacji zaznacz tylko te komponenty, które będą wymagane podczas pracy.

Dobór komponentów wpływa na czas montażu, który jednak nie powinien zająć dużo czasu. Podczas procesu instalacji zapoznasz się z głównymi funkcjami FR. Po aktywacji (przez Internet, e-mail, za pomocą otrzymanego kodu itp.) program jest gotowy do pełnej pracy. W trybie demo na pewno spotkasz się z różnymi ograniczeniami, które niestety nie pozwalają na pełne wykorzystanie pakietu.

Interfejs programu FineReader. Funkcjonalność

Dostęp do funkcji programu jest możliwy zarówno za pomocą skryptów, które pojawią się w menu głównym zaraz po zakończeniu procesu instalacji, jak i de facto poprzez główny interfejs.


Ekran powitalny podczas uruchamiania programu FineReader

Wygląd programu z wersji na wersję nie podlega żadnym specjalnym zmianom: twórcy nie widzą powodu, aby go drastycznie zmieniać. Dużą wagę przywiązuje się do ergonomii, co jest zauważalne we wszystkich produktach firmy ABBYY (Lingvo, PDF Transformer, FlexiCapture...). Innymi słowy, interfejs Fine Reader 12 jest dobrze przemyślany i przeznaczony dla wszystkich użytkowników, w tym początkujących. Zasada „Uzyskaj wynik jednym kliknięciem” spodoba się tym, którzy nie są przyzwyczajeni do konfigurowania i zmieniania czegoś. Z drugiej strony bardziej doświadczeni użytkownicy mogą dostroić program FineReader w oknie ustawień (Narzędzia -> Opcje...). Jedyne zastrzeżenie: dla wygodnej pracy w aplikacji pożądane jest ustawienie rozdzielczości ekranu na 1280 × 800, aby wszystkie narzędzia były zawsze, jak mówią, pod ręką.

Po uruchomieniu programu Fine Reader pojawi się okno z przyciskami szybkiego dostępu do funkcji programu. To menu jest również dostępne za pośrednictwem menu Narzędzia -> ABBYY FineReader, przycisku „Skrypty podstawowe” w prawym prawym rogu programu lub kombinacji klawiszy Ctrl+N (podobnie jak w programie Word, gdzie ta kombinacja otwiera nowy dokument) .

Skanuj do Microsoft Word: w dziewiątej wersji programu FineReader pojawiła się obsługa jeszcze nie popularnego programu Microsoft Word 2007. Z kolei na pasku narzędzi w aplikacjach Microsoft Office, w sekcji dodatków, po zainstalowaniu FR, „markowa” czerwona ikona wydaje.


Menu do eksportu rozpoznanego dokumentu FineReader
Wybór języków do skanowania i rozpoznawania dokumentów

Oprócz Microsoft Office, FR wspiera integrację z Microsoft Outlook, zapewnia eksport wyników rozpoznawania do tego samego Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect i Adobe Acrobat. Cechy te w pewnym stopniu ułatwiają i przyspieszają pracę z programem, zwłaszcza jeśli trzeba w nim pracować regularnie.

PDF lub obrazy w Microsoft Word: rozpoznaje dane z pliku PDF - lub innego typu pliku graficznego obsługiwanego przez wersję Finereader 12. Należy zauważyć, że technologia wyodrębniania tekstu z pliku PDF w FR to nie tylko „odklejanie” treści tekstowej (warstwa tekstowa w PDF może być nieobecna) od graficznej. W rzeczywistości technologia rozpoznawania jest dość skomplikowana: po przeanalizowaniu treści dokumentu program decyduje, co i jak zrobić z tekstem: po prostu wyodrębnij lub rozpoznaj i tak dalej dla każdego fragmentu tekstu.

Skanowanie do programu Microsoft Excel: skanowanie do XLS (format Microsoft Excel) może być uzasadnione, jeśli skanowany obraz zawiera tabele.

Skanuj do PDF : Istnieje wiele powodów skanowania do formatu PDF. Jednym z nich jest bezpieczeństwo: jest to jedyny format znany FR, który można skonfigurować tak, aby był chroniony hasłem. Hasło jest ustawione nie tylko do otwierania dokumentu, ale także do jego drukowania i innych operacji. Możliwy jest wybór jednego z trzech poziomów szyfrowania: 40-bitowy, 128-bitowy w oparciu o standard RC4, 128-bitowy w oparciu o standard AES (Advanced Encryption Standard).

Konwertuj zdjęcie do Microsoft Word: konwersja pliku z formatu graficznego (może to być PDF lub wielostronicowy obraz) do DOC/DOCX.

Otwórz w programie Fine Reader: otwórz plik graficzny (PDF , BMP , PCX , DCX , JPEG , JPEG 2000, TIFF , PNG ) do rozpoznania przez FineReader.

Praca w FineReader

Teraz - krótko o funkcjach programu. Cały proces podzielony jest na skanowanie, rozpoznawanie i zapisywanie wyników. Po wybraniu typu akcji programu, określeniu pliku lub urządzenia do przeskanowania, FineReader wykonuje swoje zadanie krok po kroku, co, nawiasem mówiąc, jest dość zasobochłonne dla centralnego procesora.

Jeśli jesteś szczęśliwym posiadaczem dwurdzeniowego procesora, to pracując w pakiecie Fine Reader 12 możesz docenić moc szybkości swojego komputera. Faktem jest, że FR, po wykryciu procesora dwurdzeniowego, rozpoznaje równolegle nie jedną, ale dwie strony dokumentu jednocześnie. Drobiazg - ale fajny.

Najpierw jest skanowanie, a następnie rozpoznawanie i eksportowanie tymczasowego dokumentu do wybranego formatu.


Proces rozpoznawania dokumentów PDF

Łów. Nie ma potrzeby dokonywania wstępnych ustawień w aplikacji FineReader (poza wyborem czytnika) przed skanowaniem. Dlatego wymyślono skrypty: mają na celu uproszczenie wykonywania tego samego rodzaju działań.

Uznanie. Uproszczenie wpłynęło również na inne drobiazgi. Tak więc, jeśli przypomnimy sobie poprzednie wersje programu, wcześniej musieliśmy ręcznie zmienić język (języki, jeśli było ich kilka) dokumentu. Teraz dzieje się to automatycznie, choć nie zawsze. W tym drugim przypadku FR dyskretnie proponuje sprawdzenie języka dokumentu.

Wracając do technologii rozpoznawania FR: dlaczego program najpierw skanuje cały dokument, a nie strona po stronie? Jak już wspomniano, tekst jest rozpoznawany na podstawie całej treści: wybierane są czcionki o podobnym rozmiarze / kroju pisma, tabele i obramowania, wcięcia itp.

Nie zdziw się, jeśli program FineReader 12 wyświetli komunikat informujący, że strony nie można rozpoznać, ponieważ nie znaleziono obszaru tekstowego. W celu eksperymentu zrobiliśmy zdjęcie obszaru dokumentu tekstowego na telefonie komórkowym z ekranu LCD (jednak wynik jest już wcześniej znany). Fine Reader 12 nie rozpoznał tekstu na obrazku, ponieważ był on oczywiście takiej jakości, że wyraźnie do tego nie wystarczał. Podczas drugiej wizyty sfotografowaliśmy stronę tekstową aparatem cyfrowym w normalnym oświetleniu.

FineReader bez problemu rozpoznał fragment, zachowując formatowanie i zaznaczając markerami pewne wątpliwe punkty lub znaki, które mogą mieć odmienną pisownię.

Jak widać na obrazku są to głównie kropki, łączniki, przecinki - ogólnie małe znaki. Ponadto wyraźnie widać, że program uwzględnił wypukłości, krzywizny fotografowanej strony i wyrównał wiersze tekstu. Wniosek - FR wykonała świetną robotę, aczkolwiek niezbyt trudne zadanie.

Czasami niektóre drobne punkty mogą pozostać niezauważone przez program Fine Reader, ale można je łatwo poprawić ręcznie. Na szczęście pakiet posiada własny edytor WYSIWYG, którego możliwości są wystarczające, aby dokonać ostatecznej edycji dokumentu. Dostępne jest również sprawdzanie pisowni.

Jak poprawić dokładność rozpoznawania, aby później w mniejszym stopniu zajmować się edycją tekstu? Po pierwsze, możesz podłączyć niestandardowy słownik Microsoft Word. To prawda, że ​​trudno jest ocenić wzrost dokładności, z wyjątkiem być może wzrostu słownictwa w module sprawdzania pisowni (moduł sprawdzający pisownię i gramatykę). Między innymi, aby poprawić rozpoznawanie, warto zapoznać się z ustawieniami programu (Narzędzia -> Opcje) i wybrać jeden z dwóch trybów:

uważne rozpoznanie- można go wybrać przy rozpoznawaniu dokumentów o dowolnej „złożoności”: z tabelami bez linii siatki, tekstem, wykresami, tabelami na kolorowym tle itp. Może również pomóc w przypadku niskiej jakości źródła do rozpoznawania

szybkie rozpoznawanie- tryb ten zalecany jest do przetwarzania dużych ilości dokumentów o prostym projekcie lub gdy czas nie pozwala na dokładne rozpoznanie. W większości przypadków, gdy masz czarny tekst wydrukowany na białym tle, możesz poprzestać na szybkim rozpoznaniu.

Generalnie podnoszenie jakości pracy FineReadera to osobny temat do dyskusji, o szczegółach którego można dowiedzieć się z oficjalnej pomocy, a mianowicie w dziale „Jak poprawić wyniki”.

Zapisywanie dokumentu. Ostatnim etapem pracy w Fine Reader 12 jest zapisanie końcowego wyniku w określonym formacie graficznym/tekstowym. Wstępne ustawienia zapisu można określić w opcjach FR: Narzędzia -> Opcje, zakładka Zapisz. Każdy format ma swoje własne ustawienia. Podczas zapisywania w formacie DOCX należy zadbać o zgodność formatu (pliki DOCX nie są rozpoznawane w programie Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

Czytnik zrzutów ekranu ABBYY

Deweloperzy często lubią dodawać małe narzędzia serwisowe do wielu dużych pakietów. Załóżmy, że dobrze znana aplikacja Nero do nagrywania płyt zawiera zestaw 3 do 5 narzędzi, które pozwalają robić rzeczy, których nie potrafi sam Nero. Przegląd (tutaj możesz pobrać w ramach programu Fine Reader 12).

Jeśli chodzi o FineReader, w jego składzie znajduje się jedna mała aplikacja Screenshot Reader. Dzięki niemu możesz również szybko przekonwertować go do pożądanego formatu za pomocą FR. Program jest dostępny poprzez menu Start (Start -> Wszystkie programy -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Możliwości czytnika zrzutów ekranu są nieco szersze, niż mogłoby się wydawać na pierwszy rzut oka. (W przeciwnym razie można to zrobić po prostu naciskając klawisz „PrintScreen” na klawiaturze). Oprócz tego, że Screenshot Reader wykonuje zrzut ekranu (a raczej wybrany obszar ekranu), program jest ściśle zintegrowany z FR.

Po kliknięciu przycisku „Zrzut ekranu” na panelu Czytnika zrzutów ekranu kursor zmienia kształt i włącza się narzędzie wyboru ekranu. Wybrany obszar obrazu zostaje obramowany w celu dalszego rozpoznawania tekstu (uruchamia się automatycznie).

Z listy rozwijanej możesz wybrać żądaną akcję: w rzeczywistości Screenshot Reader duplikuje szybkie skrypty FR, z tą różnicą, że zamiast migawki ze skanera jako dane wejściowe odbierany jest zrzut ekranu.

Należy zauważyć, że program wraz z całym pakietem wymaga aktywacji. Podczas rejestracji produktu program ABBYY FineReader 12 Professional Edition Screenshot Reader jest udostępniany bezpłatnie jako „bonus”.

Wniosek

FineReader to niezastąpiony program do skanowania i rozpoznawania danych graficznych. Interfejs w języku rosyjskim i dostępność ustawień nie odstraszą niedoświadczonego użytkownika. Obsługa najnowszych formatów, innowacyjne technologie, a co za tym idzie wysoka jakość rozpoznawania sprawiają, że program jest najlepszym wyborem, zwłaszcza że ABBYY FineReader wciąż nie ma konkurencji w tej dziedzinie.

Skróty klawiszowe FineReader 12

  • Utwórz nowy dokument programu ABBYY FineReader-CTRL+N
  • Otwórz dokument programu ABBYY FineReader 12 - CTRL+SHIFT+N
  • Zapisz strony-CTRL+S
  • Zapisz obraz do pliku- CTRL+ALT+S
  • Rozpoznaj wszystkie strony dokumentu- CTRL+SHIFT+R
  • Zamknij bieżącą stronę- CTRL+F4
  • Rozpoznaj wybrane strony dokumentu programu ABBYY FineReader-CTRL+R
  • Otwórz Menedżera scenariuszy- CTRL+T
  • Otwórz okno dialogowe Fine Reader Options- CTRL+SHIFT+O
  • Otwórz Pomoc- F1
  • Przejdź do okna dokumentu-ALT+1
  • Przejdź do okna obrazu- ALT+2
  • Przejdź do okna tekstowego- ALT+3
  • Przejdź do okna Zbliżenie- ALT+4