OCR

OCR

OCR (Optical Character Recognition) – zestaw technik lub oprogramowanie służące do rozpoznawania znaków
i tekstów w pliku graficznym o postaci rastrowej.
Zadaniem programu OCR jest zmienienie zdjęcia tekstu w tekst właściwy, który byłby zrozumiały dla komputera. Postęp w optycznym rozpoznawaniu tekstu jest widoczne, komercyjne oprogramowanie z lat 90. XX wieku
wymagało dobrego skanu.

Techniki Optycznego Rozpoznawania Tekstu stosowane są przy digitalizacji zasobów bibliotek, jako ułatwienie
przy odczytywaniu danych z formularzy wypełnianych pismem odręcznym. Oprogramowanie OCR nie jest skuteczne
jak człowiek, w przypadku wątpliwych trudności w odczytaniem fragmentu oraz w celu uniknięcia błędów nieodzowna jest weryfikacja wyniku OCR przez człowieka.

Rozpoznawanie pisma jest możliwe dzięki zastosowaniu z dziedziny rozpoznawania wzorców. OCR wykorzystuje różne metody segmentacji obrazu, np. progowanie, aby wyodrębnić znaki z obrazu, które są następne osobno klasyfikowane jako poszczególne litery. W tym procesie wykorzystywane są sieci neuronowe. Aby wyeliminować pomyłki,
program sprawdza całość rozpoznanego tekstu lub poszczególne wyrazy pod kątem poprawności ortograficznej
i gramatycznej danego języka

Dodaj komentarz