Nauka

Co to jest ocr? »Jego definicja i znaczenie

Anonim

OCR to optyczne rozpoznawanie znaków lub znane również w języku hiszpańskim jako optyczne rozpoznawanie znaków. OCR to oprogramowanie umożliwiające rozpoznawanie tekstu, tworzenie jego obrazu w celu przekształcenia go w ciąg znaków, a następnie zapisywanie ich w określonym formacie, który można wykorzystać w tych programach do edycji tekstu. Innymi słowy, dzięki tej nowej technologii każdy typ tekstu lub dokumentu, w tym pliki PDF, zeskanowane dokumenty, a nawet obrazy zrobione z aparatów cyfrowych, można przekształcić w dane w celu umożliwienia ich edycji.

To oprogramowanie działa w następujący sposób, najpierw analizuje każdą część obrazu danego dokumentu; rozpowszechniać stronę w częściach, takich jak między innymi tabele, obrazy, bloki tekstu; następnie wiersze są rozdzielane słowami, które później stają się znakami; a ponieważ znaki zostały już wskazane, oprogramowanie dokonuje porównania z grupą obrazów wzoru. Postępuje to zgodnie z serią hipotez dotyczących tego, czym jest każda postać; iw oparciu o te hipotezy analizuje różne warianty dzielenia wierszy na słowa i słów na znaki. I to po wielu analizach i przetworzeniu hipotez program ostatecznie prezentuje już rozpoznany i przekształcony tekst w nowym formacie.

Należy zaznaczyć, że obecnie na rynku komputerowym dostępnych jest szereg programów opartych na OCR, takich jak OmniPage, Abbyy Fine Reader czy READiris. YY, które mają możliwość nie tylko analizowania i rozpoznawania tekstu jako takiego, ale także rozpoznawania formatu i stylu, ale z pewnymi ograniczeniami, co oznacza, że ​​tekst po analizie musi być edytowany w celu wprowadzenia poprawek, wymagać.