Convertirea online a unui document printat sau PDF in text care sa poata fi modificat

Vi s-a intamplat vreodata sa trebuiasca sa transcrieti un text voluminos dintr-o carte, revista, ziar, s.a. sau sa fie nevoie sa traduceti un document printat intr-o limba straina dificila, cu litere dintr-un alt format de scriere (ex. alfabetul chirilic, japonez etc.) folosind un program informatic de traducere precum google translate dar descifrarea si tastarea caracterelor este aproape imposibila? In articolul de azi am sa descriu o modalitate surprinzator de eficienta, prin care se pot transcrie computerizat texte din documente printate sau digitale, fara sa fie nevoie de instalarea sau rularea vreunui program pe calculator.
Cum se face transcrierea computerizata a unui document printat (click pentru marire).
Transcrierea unui text dintr-un document PDF sau imagine in echivalentul editabil al acestuia este o operatie costisitoare atat din punct de vedere al timpului alocat, cat si probabil al costului, daca aceasta se face manual - de catre o persoana. Din fericire copierea de texte dintr-un document care nu este editabil introducandu-l de la tastatura nu este singura optiune posibila in prezent, mai exista o alternativa cu rezultate instant: folosirea unui aplicatii online de tip OCR.

  Despre OCR - recunoasterea optica a caracterelor

Recunoasterea Optica a Caracterelor sau OCR (Optic Character Recognition) reprezinta o tehnologie prin care documente de diferite tipuri care contin text, spre exemplu cele facute cu o camera digitala, scanate de pe documente printate sau salvate in diverse formate grafice, sunt convertite in date editabile care pot fi modificate sau manipulate cu usurinta. Modalitatea prin care se face acest lucru este urmatoarea: documentul este scanat pentru a i se detecta fiecare pixel (unitatea de baza a imaginilor) de informatie, de exemplu pentru un document alb-negru scanat intr-o imagine, un pixel alb inseamna spatiul gol iar un pixel negrul inseamna ca acesta face parte dintr-un caracter.

Un caracter reprezinta o alaturare de pixeli negri (sau similari) care au o anumita forma; algoritmul OCR identifica acea forma si cauta printre sabloanele cu caractere litera care se aseamana geometic cu aceasta. Detectandu-se pe rand forma tututor caracterelor si gasindu-se apoi litera echivalenta in format digital, va rezulta in final documentul digital editabil corespunzator documentului initial.

  Transcrierea online a unui document intr-un format digital, care sa permita editarea

Inainte de toate, pentru a se putea efectua transcrierea trebuie ca documentul sa existe deja in format digital, de exemplu document imagine sau PDF needitabil. Daca este vorba de transcrierea unui document printat atunci acesta va trebui initial scanat/ fotografiat si salvat sub forma de imagini, fie prin intermediul unui dispozitiv de tip scanner - existent pe mai toate imprimantele personale, fie cu ajutorul unui aparat de fotografiat - caz in care trebuie sa se tina cont de mai multe aspecte care sa asigure claritatea imaginii (luminozitate, pozitie de fotografiat s.a.).

Odata ce exista stocate pe calculator imaginile ce compun documentul, respectiv documentul intr-un format static, needitabil, de exemplu de tip PDF, atunci se poate incepe transcrierea textului din astfel surse in format editabil, sub diferite formate de document: txt (text), doc(document Word), xls (foi de calcul tabelar).

O solutie la indemana si in acelasi timp gratuita este folosirea unui OCR online. Un site reprezentativ ce furnizeaza servicii de recunoastere optica de caractere este ONLINEOCR.NET.

Acceseaza site-ul www.onlineocr.net si urmeaza pasii:
1. fa upload la document sau la imaginile scanate sau fotografiate (cate una pe rand);
2. selecteaza limba in care este scris texul (este disponibila si limba romana);
3. alege tipul de document in care vrei sa obti documentul echivalent editabil;
4. introdu codul de verificare captcha;
5. incepe transcrierea computerizata apasand "Convert".

Dupa ce texul a fost transcris acesta este afisat, putand fi downloadat pe calculator in formatul specificat; ce poate fi deschis intr-un editor de text iar textului continut i se pot aplica operatii de formatare si modificare.

Daca documentul depaseste 5 Mb sau sunt mai mult de 15 imagini atunci este necesara inregistrarea si apoi aplicarea transcrierii online folosind site-ul. Daca documentul sau un fragment de text din acesta se doreste a fi tradus intr-o alta limba atunci selecteaza si copiaza textul si introdu-l in google translate (mai multe gasesti aici: traducerea de text folosind google translate).