¡Cómo pasa el tiempo! Hace ya un mes que no actualizaba el blog (se nota que se acabaron las vacaciones) y hace un poco más de dos meses que escribí sobre la versión 2.0.3 beta de OmegaT y sus diferencias frente a la versión estable (en ese entonces la 1.8.1_6). Pues bien, hoy la noticia es que el equipo de desarrolladores de OmegaT ha lanzado la versión 2.0.5 del programa, ya no como beta sino como versión estable.
Además de los cambios mencionados en el post sobre la versión 2.0.3, esta versión incluye un nuevo filtro que nos permitirá localizar archivos de recursos de aplicaciones para Android, el sistema operativo libre para dispositivos móviles.
La versión 2.0.5 incluye también una función que nos permite obtener la traducción automática del segmento activo desde Google Translate. Para activar esta opción debemos marcar la casilla correspondiente en el menú Opciones.
La traducción de Google se mostrará entonces en un panel que inicialmente aparece minimizado. Con el atajo de teclado Ctrl+M podemos insertar la traducción automática en el segmento activo para luego hacer las correcciones necesarias.
Esta opción ha generado bastantes comentarios en el grupo de usuarios de OmegaT, especialmente por el tema de la confidencialidad ya que, como sabemos, Google se ha convertido en un monstruo come-datos y nadie sabe muy bien exactamente qué pasa con la información que se traga. En cualquier caso, si este aspecto nos preocupa con algún proyecto en particular, para estar tranquilos y no alimentar al monstruo podemos simplemente desactivar la opción.
Para nosotros los hispanohablantes la versión 2.0.5 presenta otra mejora importante: la localización de la interfaz de usuario y la guía de inicio rápido ha sido actualizada y corregida luego de que en versiones anteriores se hubiera ‘colado’ una traducción que se podría calificar de vergonzosa.
No obstante, y como todo hay que decirlo, he visto que quedan aún algunos problemillas en la interfaz y también está pendiente la actualización de la traducción del manual de usuario completo (el manual en español corresponde a la versión 1.4.4 del programa :^/).
Como última mejora importante, la versión 2.0.5 nos permite generar un archivo tmx con una pseudo-traducción en la que la traducción es igual al original, o bien solo contiene los segmentos originales (los segmentos de la traducción aparecen vacíos). Esta opción puede resultar muy útil, por ejemplo, cuando queremos verificar si OmegaT procesa nuestros archivos originales y puede crear los documentos finales sin problemas, o cuando queremos procesar la memoria con otra herramienta.
Para generar la pseudo-traducción con la traducción igual al original debemos utilizar el siguiente comando: java -jar omegat.jar --pseudotranslatetmx=<filename> (donde debemos reemplazar <filename> por el nombre y la ubicación que queramos darle al archivo de la pseudo-traducción). Si queremos un archivo tmx solo con los segmentos originales debemos agregar al final el argumento --pseudotranslatetmx=empty. Finalmente, para reutilizar la memoria en el proyecto de OmegaT debemos cambiar el nombre a project_save.tmx y guardarla en la carpeta /omegt del proyecto.
Muy bien, ahora solo queda esperar la próxima versión a ver qué sorpresas nos trae
.
Lexterm (Lexical Extractor for Terminology and Translation), antes llamado Stem-TES/LES, es un programa libre para extracción de tipo estadístico. Fue creado por el profesor Antoni Oliver y un equipo de la Universitat Oberta de Catalunya y se desarrolló como parte del proyecto interuniversitario RESTAD (Recursos de Soporte a la Traducción Automática Aplicados a la Docencia). La versión 2.1 de Lexterm está disponible en inglés y en catalán.
Aunque parece que el desarrollo del programa se detuvo a finales del 2006 y la interfaz gráfica es algo rudimentaria, Lexterm sigue siendo una opción interesante ya que es de los pocos programas libres que nos permiten realizar extracción terminológica bilingüe además de monolingüe. Otra característica de Lexterm es que está escrito en Perl, por lo que se puede utilizar en GNU/Linux, MS Windows y MacOS.
En este post veremos entonces como realizar una extracción de términos y equivalentes a partir de un corpus bilingüe. Para empezar necesitamos un corpus en formato de texto delimitado por tabulaciones, donde la primera columna corresponde a los segmentos en L1 y la segunda a los de L2.
Cabe mencionar que por tratarse de un programa de base estadística, a mayor número de palabras en el corpus, mejores resultados obtendremos; de igual manera, es recomendable tener dos listas de stopwords, una en L1 y otra en L2.
Lo primero que debemos hacer luego de abrir Lexterm es cambiar la configuración para extracción bilingüe. En el menú Configuration, seleccionamos General (atajo de teclado Ctrl+g).
En el cuadro de diálogo General configuration debemos especificar la codificación de los archivos que vamos a utilizar en el proceso (el corpus paralelo, las listas de stopwords en L1 y L2 y el archivo en el que se exportarán los resultados). Hacemos clic en el botón OK para continuar.
A continuación, para configurar la extracción en L1, en el menú Configuration, seleccionamos Ngrams (atajo de teclado: Ctrl+n). En el cuadro de diálogo n-grams configuration, marcamos las casillas Use parallel corpus y Filtering with stop-words. Hacemos clic en el botón Select stop-words para indicar la ubicación del archivo con la lista de stopwords para el idioma original. Para las demás opciones puedes ensayar con diferentes valores según tus necesidades. Hacemos clic en el botón OK para volver a la pantalla principal.
Para configurar la extracción en L2, en el menú Configuration seleccionamos Tond (atajo de teclado Ctrl+t). En el cuadro de diálogo tond configuration, marcamos la casilla Filtering with stop-words y utilizamos el botón Select L2 stop-words para indicar la ubicación del archivo con la lista de stopwords para la lengua de destino. Hacemos clic en el botón OK para volver a la pantalla principal.
Ahora para abrir el corpus paralelo, en el menú File seleccionamos Open paral. corpus file (atajo de teclado Ctrl+p) y a continuación indicamos la ubicación del archivo. Aparecerá un mensaje notificando si el corpus fue cargado correctamente.
El siguiente paso es extraer las unidades léxicas de los segmentos en la lengua origen. Hacemos clic en el menú Ngrams y esperamos unos segundos a que aparezca la lista de candidatos con indicación de la frecuencia de aparición de cada uno.
Ahora debes revisar la lista y seleccionar las unidades léxicas relevantes y buscar sus equivalentes de traducción. Para buscar los equivalentes, debes ubicar el cursor sobre un término a la vez y hacer clic en el menú Tond (atajo de teclado Alt+t).
Si el primer equivalente que se muestra no es el correcto, puedes hacer clic sobre la flecha de la derecha para desplegar la lista de sugerencias y seleccionar el equivalente adecuado. Si el equivalente correcto no aparece entre las sugerencias que se presentan, puedes dejar el cuadro en blanco para que solo se exporte el término original o escribir el equivalente si lo sabes. También es posible editar los términos de la columna de la izquierda en caso de ser necesario (por ejemplo para cambiar mayúsculas, eliminar plurales, etc.).
Si queremos guardar la lista para continuar con la revisión después, seleccionamos la opción File > Save (Ctrl+s) o Save as (Ctrl+a) (la opción Save solo parece funcionar cuando se guarda por primera vez). El archivo se guarda en formato de texto delimitado por tabulaciones y tiene cuatro columnas: las frecuencias de aparición, los términos, los equivalentes y otra columna que indica si el término está seleccionado o no.
El programa incluye también una opción que permite buscar los contextos en los que aparecen los candidatos a término. Para esto, en la lista debemos ubicar el cursor sobre el término que queremos buscar y hacemos clic en el menú Search (atajo de teclado: Alt+s). Los contextos se mostrarán en una ventana emergente con el término resaltado. Si el término ya tiene un equivalente, éste también aparecerá resaltado en los contextos.
Luego de terminar de revisar la lista podemos exportar solo las unidades léxicas relevantes con sus equivalentes. En el menú File, seleccionamos Export (atajo de teclado: Ctrl+e) y en el cuadro de diálogo que se abre indicamos el nombre y ubicación del archivo para guardar los resultados. Hay que tener en cuenta que se exportarán solo los términos cuya casilla de la izquierda esté marcada y no se incluirá la información de las frecuencias.
Ya que el formato del archivo resultante es texto delimitado por tabulaciones, uno de los estandares de facto para intercambio de glosarios entre herramientas (mientras seguimos esperando la implementación del estándar TBX o algún otro), seguramente no tendremos problemas de interoperabilidad al utilizar los resultados con otros programas.
En mi opinión, Lexterm puede resultar muy útil para crear glosarios a partir de memorias de traducción de antiguos proyectos, así como para realizar extracciones monolingües al empezar proyectos nuevos. Así pues, aunque no es un programa exactamente maduro, creo que un extractor bilingüe no sobra en la caja de herramientas libres del traductor.
Me entero por el blog de la Free Software Foundation de que FLOSS Manuals acaba de completar exitosamente otro de sus ‘book sprints‘, sesiones maratónicas de varios días en las que un grupo de voluntarios se reune para redactar colaborativamente, en una plataforma tipo wiki, un manual sobre software libre o temas relacionados. El resultado del último book sprint, que tuvo lugar en Berlín, es un manual actualizado que abarca diversos aspectos relacionados con el formato abierto de vídeo OggTheora.
Los manuales producidos por FLOSS Manuals, disponibles bajo licencias libres, se pueden leer directamente en la página del proyecto y también es posible descargarlos gratuitamente en formato pdf o comprarlos como libros mediante el servicio de publicación por demanda lulu.com.
Ya que se trata de contenidos libres, los usuarios pueden también ‘remezclar’ los manuales, es decir, crear un manual a partir de capítulos tomados de los manuales existentes. El manual remezclado se puede descargar en formato PDF o HTML y como nueva opción, aún en beta, es posible incrustarlo en una página web o blog. (Lástima que en WordPress.com no se pueda
.)
Para colaborar con este interesante proyecto basta ir a la sección WRITE y registrarse como usuario. Como medios de apoyo para el trabajo colaborativo, el proyecto cuenta también con una lista de discusión y un canal de chat IRC (irc.freenode.net #flossmanuals) que se puede utilizar directamente desde la sección WRITE.
A la fecha, están disponibles una treintena de manuales en inglés, y existen además versiones del proyecto en persa y holandés con una docena de manuales cada una. También es posible contribuir con traducciones de los manuales a otros idiomas, para lo que se ha dispuesto la denominada zona de traducción. Ya que los administradores del proyecto prefieren establecer sitios independientes para cada idioma (como ya han hecho con persa y holandés), la zona de traducción se considera un repositorio temporal.
Para contribuir con la traducción de algún manual primero es necesario suscribirse a la lista de discusión del proyecto y enviar un mensaje especificando el manual que se desea traducir y la lengua de destino. Luego, uno de los administradores del proyecto creará el manual y podremos empezar a traducir accediendo por la zona de traducción.
FLOSS Manuals es, pues, otro proyecto interesante al que se puede contribuir desde las aulas de traducción, y eso es precisamente lo que espero hacer en octubre con los estudiantes del próximo curso sobre Software libre para la traducción del Máster TECNOLOC. Ya veremos qué tal resulta.

















