Software para reconocimiento óptico de caracteres (OCR) & Traducción audiovisual

en octubre 3, 2016octubre 3, 2016 por nerdkipediaDeja un comentario

front-blog-entr4

OCR (Optical Character Recognition)

Software de reconocimiento óptico que permite transformar un archivo no editable (de imagen) en formato editable o reconocible para la computadora (por ejemplo Word). El proceso que lleva a cabo este software es la conversión de los conjuntos de puntos que forman una imagen (píxeles) en caracteres manipulables. Una vez terminado este proceso, el texto reconocido por el software se puede exportar en el formato deseado. La variedad de formatos a los que se pueda exportar depende del software de OCR que se utilice.

Existen diferentes sistemas OCR que serán de utilidad según el problema que se aborde:

ICR (Intelligent Character Recognition): reconocimiento de diferentes estilos de caracteres manuscritos. Con el uso mejora su precisión y nivel de reconocimiento.
OCV (Optical Character Verification): Analiza un archivo ya conocido y verifica la optimización del resultado.

Dos ventajas que caben mencionar son:

El ahorro de tiempo respecto a la inserción manual de datos (Un programa de reconocimiento óptico puede leer hasta 1200 caracteres por segundo).
El ahorro de espacio en la computadora ya que el archivo se almacena en forma de texto y no de imagen.

Los programas de reconocimiento óptico tienen un sinnúmero de utilidades, algunas de ellas son:

La digitalización y transformación de texto a documentos editables, ya sea en un entorno personal, laboral o académico.
Combinado con otras técnicas, permite transformar el texto resultante en Braille o archivos de audio, herramienta ideal para personas con deficiencias visuales.
Pueden ser utilizados en el mundo de la música ya que la mayoría de los programas de OCR pueden leer partituras musicales.

Los software propietario de OCR más utilizados son: OmniPage, Abbyy Fine Reader y READiris. También existen software de OCR gratuitos. La desventaja de estos es la menor cantidad de formatos a los que permite exportar.

Resultado de imagen para abbyy

front-blog-entr41

Traducción audiovisual

Un producto audiovisual es aquel que se sirve de señales auditivas y visuales, que forman un todo inseparable, para la comunicación de un mensaje. La traducción audiovisual abarca diferentes actividades como el doblaje, la narración o el subtitulado por ejemplo.

En lo que al subtitulado respecta, se utilizan programas de computación específicos: editores de subtítulos.

El editor de subtítulos permite la creación del subtítulo en sí (determinar en qué momento aparecerá en pantalla y su duración), la temporización (acomodar el subtítulo para que coincida el momento en que aparece con el momento en que comienza el sonido) y, por supuesto, la traducción.

Como en la mayoría de los casos existen programas gratuitos y pagos. Aunque en este, la sofisticación con la que cuentan los programas gratuitos hace casi innecesaria la adquisición de uno pago. De entre los gratuitos, pueden destacarse los siguientes como más utilizados:

Subtitle Workshop: Es considerado la mejor herramienta gratuita para edición de subtítulos. Tiene una interfaz muy amigable y admite todos los formatos más utilizados (srt, sub, ass, dks, scr, entre otros).

En el siguiente link encontrarán un tutorial para generar subtítulos con este programa: https://www.youtube.com/watch?v=eX79yIUIH5M

Jubler: Este programa se puede utilizar tanto para la creación de subtítulos como para la conversión de subtítulos ya existentes. Funciona con Windows, Mac y Linux.

Subtitle Creator: Permite añadir subtítulos a un DVD ya grabado.

Open Subtitle Editor: Muy fácil de usar. Cuenta con la función de edición de video y traducción de subtítulos.

Básicamente, cualquier editor gratuito permite una ejecución profesional de la tarea. Sin embargo, los programas pagos, en general, son los que están más actualizados. Algunos ejemplos de estos son:

EZTitles: Soporta 54 formatos, permite la creación de subtítulos para videos en 3D y cuenta con un segundo canal (track) para crear subtítulos en caso de que se hable un segundo idioma. Su principal desventaja es su elevado costo (la versión más económica de este software cuesta € 1620).

Spot Software: Muy amigable, trabaja con diferentes formatos. La versión más reciente de este software es Spot 6; incluye un convertidor de video y encoder (para incrustar subtítulos). Opera con una gran cantidad de formatos. Sólo compatible con Windows.

Bibliografía:

http://www.spotsoftware.nl/spot.shtml

La traducción audiovisual

https://filmora.wondershare.es/video-editor/subtitle-editor.html

https://www.ecured.cu/Reconocimiento_%C3%B3ptico_de_caracteres

Haz clic para acceder a pildora-OCR-2.pdf

http://www.eztitles.com/

http://www.online-convert.com/es/resultado/40a73cb82f676bfb512d7253ff7998c4

Damián Santilli y otros (2016) Manual de informática aplicada a la traducción, Buenos Aires: Editorial CPTCBA

Historia de la traducción automática (1966 ~ actualidad)

en septiembre 21, 2016 por nerdkipediaDeja un comentario

mt2

El año 1966 fue muy importante en la historia de la traducción automática. En ese año se redactó el informe ALPAC (Automatic Language Processing Advisory Committee), del National Research Council, que enumera una serie de conclusiones desfavorables a cerca de este método, entre ellas:

Concepción errónea de los proyectos.

Mal o escaso conocimiento del lenguaje.

Técnicas informáticas inadecuadas.

alpac1

La recomendación general de este informe fue no continuar invirtiendo tiempo ni dinero en el proyecto. El desfinanciamiento que sufrió fue una consecuencia directa de la problemática que planteaba la semántica del texto a traducirse y que parecía imposible de sortearse. Esto, entonces, siempre importaría un intenso trabajo de edición posterior. Haciendo caso omiso de la situación, IBM continuó desarrollando esta tecnología.

La investigación sobre la traducción automática se trasladó así a otros lugares. En primera instancia a Canadá (dada la necesidad que planteaba su condición de país bicultural) y Europa (el desarrollo de la Unión Europea trajo aparejada la necesidad del intercambio de información multilingüe), y luego a Japón.

Como producto de las investigaciones llevadas a cabo en estos lugares, se desarrollaron distintos sistemas de uso comercial. Uno de los primeros y más conocidos fue SYSTRAN, creado por Peter Toma, en la Universidad de Georgetown. Inicialmente Toma diseñó el programa con el par ruso-inglés para ser utilizado por la Fuerza Aérea de los Estados Unidos. Al ser mucho más avanzado que el resto de los programas existentes en ese momento, se utilizó también en organismos de gran relevancia mundial como la OTAN y la OIEA (Organización Internacional de Energía Atómica).

En 1976 se conoció el programa Météo. Esta tecnología fue el resultado de una investigación que había comenzado en el año 1965 en la Universidad de Montreal con la financiación del Consejo Nacional de Investigación de Canadá, bajo la dirección del profesor Guy Rondeau. En 1971 el programa se rebautizó como TAUM (Traduction Automatique Université de Monrtéal). Météo, como se lo comercializó más tarde, fue diseñado para traducir partes meteorológicos.

En la década de 1980, en proyectos de segunda generación, se incorporaron reglas estructurales más complejas, datos estadísticos y la distinción de normas gramaticales. De entre estos proyectos uno de los más destacados fue EUROTRA, para la comunidad europea, que luego fue cancelado por falta de financiación.

La década siguiente marcó un punto de inflexión para la traducción automática. Fue entonces que comenzó a evaluarse el método que se conoce como estadístico (SBMT). Este se basa en el análisis de corpus de textos que ya habían sido traducidos y es el más utilizado hoy en día. A diferencia de los otros sistemas, no se basa en reglas lingüísticas sino en la comparación de un corpus bilingüe. Uno de los primeros de estos sistemas fue desarrollado por la empresa IBM, Candide, a partir del análisis de textos del parlamento canadiense (en inglés y francés).

Los avances tecnológicos de esta época (internet) permitieron la celeridad en la expansión de la traducción automática. Se crearon sistemas aptos para PC (PC-Translator y Power Translator) y en 1997 se conoció el primer servicio de traducción automática en internet, Babel Fish. En ambos casos la base tecnológica era SYSTRAN.

Diez años más tarde Google presentó su primer sistema de traducción, Google Translate, basado en reglas (RBMT). No es sino hasta 2011 que la empresa comienza a utilizar el sistema estadístico.

google-translate

http://www.infoamerica.org/documentos_pdf/bar06.pdf

http://cvc.cervantes.es/lengua/anuario/anuario_10-11/alcina/p02.htm

Damián Santilli y otros (2016) Manual de informática aplicada a la traducción, Buenos Aires: Editorial CPTCBA

Bases de datos terminológicas: definición y funcionamiento

en septiembre 7, 2016 por nerdkipediaDeja un comentario

front-blog-entr2

Las bases terminológicas, también conocidas como bases de datos, son un recurso que podría denominarse como fundamental para toda aquella persona que desarrolle una tarea de contenido lingüístico; ya sea traductor, terminólogo, o lingüista. Son listas que recogen información lingüística o conceptual de términos. Estas permiten la consulta para la verificación de información y garantizan la coherencia tanto terminológica como de registro a lo largo del documento con el que se está trabajando.

Cada término incluido en una base de datos se denomina entrada terminológica. Una entrada terminológica debe incluir toda la información existente acerca del concepto que aborda. Hay distintos factores a tener en cuenta al momento de estructurar una base terminológica. Entre ellos pueden incluirse el campo de estudio, el área, de ser específica, y por ejemplo en el caso de un traductor, el cliente.

Hay dos elementos obligatorios en toda base terminológica:

El término: este puede estar formado por una o varias palabras, una sigla, un símbolo, etc.

La traducción: esta entrada en particular puede repetirse en el caso de que la base de datos sea plurilingüe.

Pueden incluirse otros elementos a discrecionalidad de quien la estructure y su fin. Algunos de estos son: definición, registro, género, clase de palabra, imagen, etc.

Al armar una base terminológica son muy importantes la precisión y la claridad. ¿Qué quiere decir esto? Que debe proveer información puntual (economía de tiempos) que no debe estar mezclada. Por esto se recomienda incluir un campo por columna, como por ejemplo: género y tipo de palabra; y un concepto o entrada terminológica por fila.

Fuente de la imagen: http://tradugeek.com/2015/07/traducir-en-trados-studio-2015/

A grandes rasgos puede discriminarse una base terminológica creada por una persona para su uso particular de aquellas a las que tendrán acceso más de un individuo. Asimismo, en este segundo grupo cabe diferenciar las bases terminológicas de uso privado (para un proyecto grande en el que trabajarán varios traductores) de las de acceso público. En ambos casos existe hoy por hoy la opción de utilizarlas en red, lo que brinda la posibilidad de su actualización permanente e instantánea.

Una de las herramientas de gestión terminológica de mayor uso es SDL MultiTerm 2015. Este software permite gestionar, almacenar y compartir toda la terminología que abarca un proyecto con todos los participantes. El programa se puede integrar a SDL Trados Studio y se lo utiliza para garantizar que el contenido original se traduzca con coherencia y calidad. Entre sus principales funciones se encuentran la opción de añadir hipervínculos a la base terminológica, almacenar infinitos términos en cualquier tipo de lengua e importar o exportar bases terminológicas provenientes de otro software, como por ejemplo MS Office.

Fuente de la imagen: https://localizationlocalisation.wordpress.com/tag/sdl-studio/

También debe hacerse mención a Wordfast Pro, otra herramienta de gestión terminológica que permite modificar su interfaz según la preferencia personal y es compatible con software de traducción automática para asistir al traductor en caso de que el glosario no contenga información específica. Al igual que SDL Multiterm, es compatible con otros programas y formatos como InDesign, MS Office, HTML, etc.

Fuente de la imagen: https://localizationlocalisation.wordpress.com/tag/wordfast/

Bibliografía: https://rua.ua.es/dspace/bitstream/10045/3823/1/BDT_enInternet.pdf

http://www.arttra.es/las-bases-de-datos-terminologicas/

http://www.sdl.com/es/cxc/language/terminology-management/multiterm/

http://www.wordfast.com/products_wordfast_pro_3

https://en.wikipedia.org/wiki/SDL_MultiTerm

Damian Santilli y otros (2016) Manual de informática aplicada a la traducción, Buenos Aires: Editorial CPTCBA

Historia de Internet: ARPANET

en agosto 23, 2016agosto 25, 2016 por nerdkipedia

Historia de Internet: ARPANET

Lo que hoy conocemos como Internet nace en Estados Unidos como un programa de investigación militar (aunque nunca se le dio ese destino), como respuesta a los avances tecnológicos y militares que presentó Rusia durante la guerra fría, puntualmente el programa Spútnik. En 1958 a través del Ministerio de Defensa se funda la Advanced Research Projects Agency (ARPA).El objetivo principal de ARPA fue la creación de comunicaciones directas entre ordenadores, a través de una red descentralizada, capaz de resistir cualquier tipo de ataque, incluso uno nuclear. En 1962 uno de los investigadores del gobierno estadounidense, Paul Baran, presentó un proyecto con estas características ante el Departamento de Defensa de los Estados Unidos.

paulbaran

Ilustración de la red descentralizada de Paul Baran.

En 1961 el científico nacido en Polonia Leonard Kleinrock llevó a cabo una investigación desde el Instituto Tecnológico de Massachusetts (MIT) que planteaba la conmutación de paquetes como técnica a utilizar, en lugar de circuitos, para la construcción de una red. En 1965 Lawrence G. Roberts, también investigador del MIT, confirma la teoría de Kleinrock al conectar un ordenador en Massachusetts con uno en California a través de una línea conmutada de baja velocidad. Esta fue la primera red establecida a lo largo de una gran distancia; de ahí su nombre: WAN (Wide Area Network – Red de Área Amplia)

En 1966 se incorpora la fibra óptica como soporte para la transmisión de señales. El mismo año ARPA recibe un subsidio gracias al que finalmente logra la interconexión, a través de ordenadores, entre agencias federales y universidades. Tres años más tarde se activa la primera red computarizada que unió a la Universidad de California en Santa Bárbara, el Instituto de Investigación de Stanford, la Universidad de Utah y la Universidad de Los Ángeles. Esta red recibe el nombre de ARPANET.

En el momento de su creación ARPANET conecta cuatro computadoras y contaba únicamente con un nodo. En 1970 ARPANET tenía 15 nodos y 23 ordenadores centrales. Un año después Ray Tomlinson, programador informático, diseña un software para el envío y recepción de mensajes. Lo que llevó a esto fue el hecho de que una vez que los superordenadores estuvieron conectados, los científicos se dieron cuenta de que la capacidad de procesamiento informático que habían desarrollado excedía las necesidades para las que se había creado esa red. La idea de este software entonces era permitir el intercambio de mensajes entre los diferentes ordenadores para determinar qué hacer con ese exceso de capacidad. Así, en el proceso de búsqueda de una nueva función de la red y, sin realmente darse cuenta, crearon la aplicación de mayor uso en la actualidad, el correo electrónico. En 1971 Tomlinson envía por primera vez un correo utilizando el signo «@» con el objeto de distinguir entre el ordenador y un individuo.

tomlinson

Ray Tomlinson (1941 – 2016)

En 1972, ARPANET se presenta en la First Internacional Conference on Computers and Communication con 40 puntos de conexión en diferentes ubicaciones. El éxito de esta presentación estimuló la investigación y el desarrollo en este campo. Sin embargo, hasta el momento solo podían asociarse a la red quienes tuvieran contratos con el Pentágono, limitación que llevó a la creación de otras redes.

Algunas de ellas son:

Telenet (1974) Versión comercial de ARPANET.
Usenet (1979) Sistema abierto que se enfocaba en el correo electrónico. Aún operativa.
Bitnet (1981) Unía universidades estadounidenses. Utilizaba sistema IBM.
Eunet (1982) Unía el Reino Unido, Escandinavia y Holanda.

En 1974 Robert Kahn redacta un protocolo (TCP/IP) que ayudaría a resolver los problemas de comunicación ya que podía ser utilizado por la mayoría de las redes computarizadas.

En 1982 ARPANET adopta el protocolo TCP/IP y esto da lugar a la creación de Internet (Internacional Net). maparpanet82

Mapa de ARPANET, Febrero 1982.

El protocolo de Kahn sentó las bases para el desarrollo de la World Wide Web (WWW) creada por Berners-Lee y Robert Cailliau en la Organización Europea para la Investigación Nuclear (CERN) en Ginebra en 1990. La aparición de la WWW permitió que el uso de las redes, hasta entonces reservado al universo académico y de investigación, dejara atrás su carácter restrictivo. Tanto el protocolo TCP/IP como la creación de la WWW contribuyeron significativamente a la desaparición de ARPANET que se hizo efectiva ese mismo año.

output_qeqi02

Evolución de ARPANET hasta su desaparición.

Bibliografía: http://www.fib.upc.edu/retro-informatica/historia/internet.html

http://www.paralibros.com/passim/p20-tec/pg2050ci.htm

https://books.google.com.ar/books?id=DRYbBwAAQBAJ&pg=PR166&dq=arpanet+historia&hl=es&sa=X&ved=0ahUKEwieran_3cnOAhWETJAKHYs5DF4Q6AEIMTAE#v=onepage&q=arpanet%20historia&f=false

https://books.google.com.ar/books?id=1GAEmQKvSjIC&pg=PA395&dq=arpanet+historia&hl=es&sa=X&ved=0ahUKEwieran_3cnOAhWETJAKHYs5DF4Q6AEINzAF#v=onepage&q=arpanet%20historia&f=false

https://docs.google.com/file/d/0B1bImspM7rYBNzU1YmlzNE04Ykk/edit