Bronsegmentatie

Programma's met vertaalgeheugens werken met teksteenheden die segmenten worden genoemd. OmegaT heeft 2 manieren om een tekst te segmenteren: alineasegmentatie en zinsegmentatie. Selecteer Project → Eigenschappen... uit het hoofdmenu en gebruik het beschikbare keuzevak om het type van segmentatie te selecteren. Let er op dat alineasegmentatie al aardig gedateerd is en dat voor het grootste deel van de projecten zinsegmentatie de voorkeur is. Als zinsegmentatie is geselecteerd kunt u de regels instellen door Opties → Segmentatie... te selecteren uit het hoofdmenu.

Merk op dat een groot deel van de ontwikkeling is gaan zitten in het ontwikkelen van betrouwbare segmentatieregels, dus in de meeste gevallen zal het niet nodig zijn om uw eigen segmentatieregels te schrijven. Aan de andere kant kan deze functionaliteit in speciale gevallen bijzonder handig zijn door u toe te staan te vertalen wat vertaald moet worden, zonder daarbij het gevaar te lopen dat wat ongewijzigd moet blijven gewijzigd wordt.

Waarschuwing! Wijzigen van de filteropties terwijl een project is geopend, kan leiden tot gegevensverlies. Als u de segmentatie-opties wijzigt als een project geopend is moet u het project herladen vóórdat de wijzigingen effect hebben.


Segmentatie op structuurniveau

OmegaT parst eerst de tekst voor segmentatie op structuurniveau. Gedurende dit proces wordt alleen de structuur van het brondocument gebruikt om segmenten te maken.

Tekstbestanden kunnen bijvoorbeeld gesegmenteerd worden op regeleinden, lege regels of helemaal niet gesegmenteerd worden. Bestanden met opmaak (OpenOffice.org-documenten, HTML-documenten, etc.) worden gesegmenteerd op blokniveau (alinea)tags. Vertaalbare object-attributen in XHTML of HTML-bestanden kunnen als afzonderlijke segmenten worden geëxtraheerd.


Segmentatie op zinniveau

Nadat het bronbestand in logische eenheden is gesegmenteerd, zal OmegaT deze blokken verder segmenteren in zinnen.

Segmentatieregels

Het segmenteringsproces kan als volgt worden voorgesteld: stel de cursor voor die zich langs de tekst verplaatst, één teken per keer. Voor elke cursorpositie wordt elke regel in de opgegeven volgorde toegepast en probeert of het Voor-patroon toe te passen is op alle tekst die links van de cursor staat en het Na-patroon op de tekst rechts van de cursor. Als de regel overeenkomt stopt het programma het beoordelen van de regels (voor de uitzonderingsregel) of maakt een nieuw segment (voor de afbreekregels).

De zinsegmentatie is geïmplementeerd met behulp van de Segmentation Rules eXchange (SRX)-standaard - let er wel op dat niet alle SRX-mogelijkheden worden ondersteund. En het is niet mogelijk om in SRX-formaat gedefinieerde regels te importeren/exporteren. Als u echter weet hoe SRX werkt, zult u al heel veel weten over de manier waarop OmegaT de segmentatie doet.

Er zijn twee soorten regels:

De voorgedefinieerde afbreekregels zouden voldoende moeten zijn voor de meeste Europese talen en Japans. Gezien de flexibiliteit kunt u overwegen om meer uitzonderingsregels te definiëren voor de taal waaruit u vertaald om u meer betekenisvolle en samenhangende segmenten te geven.

Regels instellen

Prioriteit

Alle segmentatieregels die zijn ingesteld met een overeenkomend taalpatroon worden toegepast in de opgegeven volgorde van prioriteit, dus regels voor een specifieke taal zouden hoger moeten staan dan de standaardregels. Regels voor Canadees Frans (FR-CA) zouden bijvoorbeeld hoger moeten staan dan de regels voor Frans (FR.*) en hoger dan de standaardregels (.*). Dan zal bij vertalen vanuit Canadees Frans uw project de regels, die zijn gedefinieerd voor die taal, de regels voor Frans en de standaardregels, in de juiste volgorde gebruiken.

Maken van regels

Klik eenvoudigweg op een verzameling van regels in de bovenste tabel om die te bewerken of uit te breiden. De regels van de verzameling zullen in het onderste gedeelte van het venster verschijnen.

Klik op Toevoegen in het bovenste gedeelte van het dialoogvenster, om een lege verzameling van regels te maken voor een nieuw taalpatroon. Een lege regel zal aan de onderzijde van de bovenste tabel verschijnen (u moet misschien naar beneden scrollen om die te zien). Wijzig de naam van de regelverzameling en het taalpatroon. De syntaxis van het taalpatroon komt overeen met de syntaxis voor reguliere uitdrukkingen. Als uw regelverzameling een taal/land-paar betreft raden wij u aan om het naar boven te verplaatsen met de knop Naar boven

Afbreken/Uitzondering

Het keuzevak Afbreken/Uitzondering bepaalt of het een afbreekregel (keuzevak geselecteerd) of een uitzonderingsregel is (keuzevak niet geselecteerd). Twee reguliere uitdrukkingen Voor en Na specificeren wat er voor en na een bepaalde positie staat zodat het voldoet aan de uitzonderingsregel of de afbreekregel.

Een paar eenvoudige voorbeelden

Bedoeling

Vóór

Na

Opmerking

stel een segment in na een punt ('.') en vóór een spatie

\.

\s

"\." betekent het teken "." "\s" betekent elk teken voor witruimte

niet segmenteren na Mr.

Mr\.

\s

Het is een uitzonderingsregel, dus het keuzevak voor de regel moet niet zijn geselecteerd

stel een segment in na "。" (Japanse punt)

Let er op dat Na leeg is

niet segmenteren na M. Mr. Mrs. en Ms.

Mr??s??\.

\s

uitzonderingsregel - zie het gebruik van ? in reguliere uitdrukkingen (niet-gulzige parameters)


Constructies van reguliere uitdrukkingen

De reguliere uitdrukkingen die worden gebruikt in segmentatieregels zijn die welke worden ondersteund door Java. Een korte samenvatting is beschikbaar in de appendix Constructies van reguliere uitdrukkingen. Als u meer specifieke informatie nodig heeft raadpleeg dan http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.

U kunt eenvoudige handleidingen vinden op het web (http://www.regular-expressions.info/quickstart.html bijvoorbeeld.)


Auteursrechten Home Inhoudsopgave