Segmentación de Texto Fuente

La herramienta de memoria de traducción trabaja con unidades textuales denominadas segmentos. OmegaT tiene 2 maneras de segmentar un texto: la segmentación por párrafo y la segmentación por frases. A fin de escoger el tipo de segmentación, seleccione Proyecto → Propiedades... desde el menú principal y utilice la casilla de verificación disponible. Tenga en cuenta que la segmentación por párrafo es bastante anticuada y que para la mayoría de los proyectos la segmentación por frases es la opción preferible. Si elige la segmentación por frases, puede configurar las reglas seleccionando Opciones → Segmentación... desde el menú principal.

Tenga en cuenta que una buena parte del desarrollo se ha invertido en perfeccionar reglas de segmentación confiables, por lo que en la mayoría de los casos usted no tendrá que involucrarse en la escritura de sus propias reglas de segmentación. Por otro lado esta funcionalidad puede ser muy útil en casos especiales, lo cual le permite traducir lo que deba traducirse, sin correr el peligro de cambiar, lo que necesita mantenerse tal cual.

¡Atención! Cambiar las opciones de los filtros mientras que el proyecto está abierto, puede resultar en la pérdida de datos. Si cambia las opciones de segmentación, cuando un proyecto está abierto, usted tendrá que volver a cargar el proyecto para que los cambios surtan efecto.


Estructura del nivel de segmentación

OmegaT primero analiza el texto para estructurar el nivel de segmentación. Durante este proceso, sólo estructura el archivo fuente que se utiliza para producir segmentos.

Por ejemplo, los archivos de texto se pueden segmentar en los saltos de línea, líneas en blanco o no segmentarse en absoluto. Los archivos con formato (documentos de OpenOffice.org, documentos HTML, etc.) se dividen en segmentos con etiquetas a nivel de bloque (párrafo). Los atributos del objeto trasladable en archivos XHTML o HTML se pueden extraer como segmentos separados.


Segmentación a nivel de párrafo

Después de segmentar el archivo fuente en unidades lógicas, OmegaT aún debe segmentar más estos bloques para formar párrafos.

Reglas de segmentación

El proceso de segmentación puede describirse de la siguiente manera: imagine que el cursor se mueve a lo largo del texto, un caracter a la vez. Por cada posición del cursor se aplica cada regla en el orden dado para ver si el patrón Antes aplica al texto de la izquierda y el patrón Después al texto a la derecha del cursor. Si la regla coincide, el programa deja de examinar las reglas (por la regla de excepción) o crea un nuevo segmento (por la regla de ruptura).

La segmentación de frases se ha implementado con la ayuda de las Reglas de Segmentación eXchange (SRX) estándar ― por favor, tenga en cuenta que no admite todas las características SRX. Y no es posible importar/exportar las reglas definidas en formato SRX. Sin embargo, si usted sabe cómo funciona SRX, ya sabe mucho acerca de cómo segmenta OmegaT.

Hay dos tipos de reglas:

Las reglas de interrupción predefinidas deberían ser suficientes para la mayoría de los idiomas Europeos y Japoneses. Dada la flexibilidad, usted puede considerar la definición de más reglas de excepción para el idioma del que traduce, para darle más sentido y segmentos coherente.

Configurando reglas

Prioridad

Todos los conjuntos de reglas de segmentación con un patrón de idioma coincidente se aplican en el orden de prioridad dado, por lo tanto las reglas para el idioma específico deben ser de manera predeterminada los valores primordiales. Por ejemplo, las reglas del Francés Canadiense (FR-CA) deben ser superiores a las reglas para el Francés (FR.*), y superiores a las predeterminadas (.*). Entonces, mientras traduce del Francés Canadiense su proyecto utilizará las reglas definidas para este idioma, las reglas para el Francés y las reglas predeterminadas en correcto orden.

Creando reglas

A fin de modificar o ampliar un conjunto de reglas existente, simplemente haga clic sobre la regla en la tabla superior. El conjunto de reglas aparecerá en la mitad inferior de la ventana.

A fin de crear un conjunto de reglas vacío para un nuevo patrón de idioma, haga clic en Agregar en la mitad superior del cuadro de diálogo. Debe aparecer una línea vacía en la parte inferior de la tabla superior (probablemente tenga que desplazarse hacia abajo para verla). Cambie el nombre del conjunto de reglas y el patrón de idioma. La sintaxis del patrón de idioma se ajusta a la sintaxis de las expresiones regulares. Si el conjunto de reglas maneja un par de idioma-país, le aconsejamos que lo mueva a la parte superior utilizando el botón Subir

Interrupción/Excepción

La casilla de verificación Interrupción/Excepción determina si la regla de excepción es una regla de interrupción (casilla de verificación marcada) o una regla de excepción (casilla de verificación vacía). Dos expresiones regulares Antes y Después especifican lo que debe haber Antes y Después de una posición de modo que pueda acogerse a la regla de excepción o a la regla de interrupción.

Algunos ejemplos sencillos

Intención

Antes

Después

Nota

Establecer un segmento después de un punto ('.') y antes de un espacio

\.

\s

"\." se entiende que es el caracter "." "\s" significa cualquier caracter de espaciado

No segmentar después de Sr.

Sr\.

\s

Es una regla de excepción, por lo tanto la casilla de verificación debe estar desmarcada

Establecer un segmento después de "。" (punto Japonés)

Tenga en cuenta que Después está vacío

No segmentar después de S. Sr. Srita. y Sra.

Sr??s??\.

\s

Regla de excepción ― vea el uso de ? en expresiones regulares (con identificador no codicioso)


Construyendo Expresiones Regulares

Las expresiones regulares utilizadas en las reglas de segmentación son compatibles con Java. Está disponible un breve resumen en el apéndice Construcción de expresiones regulares. Si necesita información más específica, por favor consulte http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.

Puede encontrar tutoriales sencillos en la web (http://www.regular-expressions.info/quickstart.html, por ejemplo.)


Aviso Legal Inicio Índice de Contenido