Los archivos PDF son famosos en internet porque son uno de los formatos más utilizados para compartir información. Se usan principalmente porque son el resultado de un documento físico digitalizado y sobretodo porque evitan modificaciones posteriores de terceros
Antes de extraer la información debe saber qué tipo de PDF tiene. Un PDF ‘nativo’ es un documento exportado que resulta de un programa digital y es más amigable para extraer. Puede reconocerlo porque al pasar el cursor sobre contenido usted puede ‘subrayar’ la información.
Si por el contrario el PDF es el resultado de imágenes o documentos que fueron escaneados, se trata de un archivo menos ‘amigable’.
Para tratar con un PDF no nativo o de escáner deberá usar una aplicación de reconocimiento óptico de caracteres (OCR por su sigla en inglés). Resulta menos amigable porque los resultados de la extracción pueden variar de acuerdo a la calidad de la imagen. Si la copia no están tan clara, el documento resultante puede confundir letras o números.
¿Cómo editar los documentos escaneados?
Cuando desee extraer información de un PDF que resulta de un documento escaneado no hay mucho más que hacer que confiar en el reconocimiento óptico de las imágenes.
Esto ocurre porque en vez de caracteres, los programas van a tener que descifrar y reconocer píxeles para adivinar el contenido.
Algunas opciones, por supuesto, tienen un muy buen sistema de OCR, gratuito o pago, y permiten una extracción exitosa. Sin embargo, factores como la calidad de la imagen, si el documento está o no con suficiente nitidez y hasta la cantidad de luz con la que fue sacada la foto o tomada la copia digital pueden afectar el resultado.
Estas son algunas opciones.
Zamzar: Esta opción puede abrir en Chrome, Firefox y Safari. Se trata de un OCR capaz de convertir un máximo de 10 archivos.
Ingrese al sitio de la herramienta y elija el archivo que desea analizar.
Selecciones el formato de salida
Entregue una dirección de correo electrónico para recibir el enlace al archivo final. Dicho enlace permanece activo solo durante un día.
OnlineOCR: Usted podrá optar por generar una cuenta gratuita para ampliar sus opciones de extracción. Para ayudar al sistema, es recomendable indicar el idioma del documento en el que va a trabajar.
Agregue el documento con el que va a trabajar e indique un formato de salida. En este caso, la versión más sencilla solo permite exportar un word, un excel o un texto plano.
Especifique si desea extraer el documento completo o solo algunas páginas. Si por el contrario, desea fusionar varios documentos puede elegir la opción para combinar archivos en un multipágina.
La aplicación procesará la solicitud según el peso de los archivos a trabajar. Una vez esté completo, automáticamente le llevará a una nueva página con el enlace de descarga.
Otras herramientas:
– Convertio
– Soda PDF
– OCR de Adobe