Quellsegmentierung

TM-Werkzeuge arbeiten mit Texteinheiten namens Segmente. OmegaT hat 2 Wege, einen Text zu segmentieren: Absatzsegmentierung und Satzsegmentierung. Um den Typ der Segmentierung festzulegen, wählen Sie Projekt → Eigenschaften... und verwenden Sie das dafür verfügbare Kontrollkästchen. Bedenken Sie, dass die Absatzsegmentierung ziemlich überholt ist und für die Mehrheit der Projekte die Satzsegmentierung vorzuziehen ist. Haben Sie sich für die Satz-Segmentierung entschieden, können Sie die Regeln dazu im Hauptmenü Optionen → Segmentierung... auswählen.

Bedenken Sie, dass in die Entwicklung zuverlässiger Segmentierungsregeln viel investiert wurde, so dass Sie in den meisten Fällen keine eigenen Segmentierungsregeln schreiben müssen. Andererseits kann diese Funktionalität in speziellen Fällen sehr nützlich sein, da sie es Ihnen erlaubt zu übersetzen, was übersetzt werden muss ohne Gefahr zu laufen, etwas zu ändern, was ungeändert bleiben muss.

Warnung! Das Ändern der Filteroptionen bei geöffnetem Projekt kann zu Datenverlust führen. Ändern Sie in einem geöffneten Projekt die Segmentierungsoptionen, werden Sie das Projekt erneut laden müssen, damit die Änderungen wirksam werden.


Segmentierung auf Strukturebene

OmegaT analysiert den Text zuerst zur Segmentierung auf Strukturebene. Während dieses Prozesses wird für die Erzeugung der Segmente nur die Struktur der Quelldatei verwendet.

Zum Beispiel kann man Textdateien an Zeilenumbrüchen oder leeren Zeilen segmentieren oder überhaupt nicht. Dateien mit der Formatierung (OpenOffice.org Dokumente, HTML-Dokumente, usw. ) werden auf Blockebene (Absatz) segmentiert. Übersetzbare Objekt-Eigenschaften in XHTML oder HTML Dateien können als separate Segmente abgetrennt werden.


Segmentierung auf Satzebene

Nach der Segmentierung der Quelldatei in logische Einheiten wird OmegaT diese Blöcke weiter in Sätze segmentieren.

Segmentierungsregeln

Der Prozess der Segmentierung kann wie folgt dargestellt werden: stellen Sie sich vor, dass der Cursor sich am Text entlang, ein Zeichen pro Schritt bewegt. Bei jeder Cursor-Position werden alle Regel in der vorgegebenen Reihenfolge überprüft, um zu sehen, ob die Position für den Text links dem Bevor Muster und für den Text rechts dem Nachher entspricht. Wenn eine von Regel erfüllt wird, hört das Programm auf, die Ausnahme-Regel zu überprüfen, und erzeugt ein neues Segment (für die Umbruchregel).

Die Satzsegmentierung wurde mit der Hilfe des Standards Segmentation Rules eXchange (SRX) umgesetzt - bedenken Sie, dass nicht alle SRX Funktionen unterstützt werden. Es ist auch nicht möglich die Regel im SRC Format zu importieren bzw. zu exportieren. Wenn Sie aber wissen, wie SRX arbeitet, wissen Sie schon viel darüber, wie OmegaT segmentiert.

Es gibt zwei Arten von Regeln:

Die vordefinierten Umbruchregel sollten für die meisten europäischen Sprachen und Japanisch genügen. In Anbetracht der Flexibilität können Sie für die Sprachen, aus denen Sie übersetzen, zusätzliche Ausnahmeregeln definieren, um vernünftigere und schlüssigere Segmente zu haben.

Regeln fürs Setup

Priorität

Alle Segmentierungsregelsätze mit einem zusammenpassenden Sprachmuster werden in der gegebenen Reihenfolge der Priorität angewandt, folglich sollten die Regel für die spezifische Sprache höher stehen als die Standardregeln. Zum Beispiel sollten die Regel für die kanadische französische Sprache (FR-CA) höher als die Regel für Französisch (FR. *) und die höher als die Standardregel (. *) stehen. Wird es aus Kanadisch-Französisch übersetzt, dann wird Ihr Projekt als Erstes die Regel für diese Sprache, danach die Regel für Französisch und am Ende die Standardregel anwenden.

Erstellung der Regeln

Um eine bestehenden Regelsatz zu bearbeiten oder zu erweitern, klicken Sie einfach in der oberen Hälfte des Dialogs darauf. Der Regelsatz erscheint in der unteren Hälfte des Fensters.

Um einen leeren Regelsatz für eine neue Sprache zu erzeugen, klicken Sie auf , Hinzufügen in der oberen Hälfte des Dialogs. Eine leere Zeile erscheint am unteren Rand der Tabelle oben (es kann sein, dass Sie nach unten scrollen müssen, um sie zu sehen). Ändern Sie den Namen des Regelsatzes und des Sprachmusters. Die Syntax für das Sprachmuster folgt der Syntax für Reguläre Ausdrücke. Betrifft der Regelsatz ein Sprachpaar, empfehlen wir, den Satz mit der Taste Nach oben nach oben zu versetzen. 

Umbruch/Ausnahme

Das Umbruch/Ausnahme Wahlkästchen bestimmt, ob es sich um eine Umbruch- (eingeschaltet) oder eine Ausnahmeregel (ausgeschaltet) handelt. Zwei reguläre Ausdrücke, Vorher und Nachher, geben an, wie die Umgebung vor und nach der Position aussehen muss, um die Stelle für eine Umbruch- bzw. Ausnahmeregel zu qualifizieren.

Einige einfache Beispiele

Absicht

Vorher

Nachher

Hinweis

Segment nach dem Punkt ('. ') und vor dem Leerzeichen setzen

\.

\s

"\." bedeutet das Zeichen "." "\s" steht für ein beliebiges Leerzeichen

nicht segmentieren nach Mr.

Mr\.

\s

Es handelt sich um eine Ausnahmeregel, deswegen kein Häkchen im Wahlkästchen.

Segment nach dem Zeichen "。" (japanischer Punkt) setzen

Bedenken Sie: Nachher ist leer

nicht segmentieren nach M. Mr. Mrs. und Ms.

Mr??s??\.

\s

Ausnahmeregel - siehe den Einsatz von ? in regulären Ausdrücken (nicht gieriger Idenfizierer)


Konstrukte mit regulären Ausdrücken

Die bei der Segmentierung verwendeten regulären Ausdrücke entsprechen den von Java unterstützten Ausdrücken. Ein kurze Zusammenfassung ist in der Anlage Konstruktionen mit regulären Ausdrücken zu finden. Wenden Sie sich an http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html, wenn Sie genauere Informationen benötigen.

Im Netz stehen einfache Einführungen zur Verfügung (z.B.http://www.regular-expressions.info/quickstart.html).


Rechtliche Hinweise Home Index des Inhalts