A fordítási memóriák szövegegységeknek nevezett elemekre épülnek. Az OmegaT egy szöveget kétféleképpen képes tagolni: bekezdésekre és mondatokra darabolva. A darabolás mikéntjének beállításához válassza ki a főmenüből a Projekt → Beállítások... menüpontot és jelölje be a megfelelő négyzetet. A bekezdésekre darabolás meglehetősen elavult megoldás, a projektek túlnyomó többségében a mondatokra darabolást célszerű választani. A mondatokra darabolás kiválasztása után a szabályok beállításához a főmenüből válassza ki a Beállítások → Szövegdarabolás... pontot.
A program fejlesztése során számottevő energiát fordítottunk megbízható darabolási szabályok kidolgozására, ezért az esetek túlnyomó részében nem lesz szüksége saját szabályok kidolgozására. Másrészről ez a funkció hasznosnak bizonyulhat egyes konkrét esetekben, így lehetősége nyílik annak meghatározására, hogy mi fordítandó, és mi nem.
Figyelem! Ha a szűrők beállításait nyitott projekt mellett próbálja megváltoztatni, ennek adatvesztés lehet az eredménye. A darabolási beállítások nyitott projekt melletti módosítása esetén a változások érvényesítéséhez a projektet újból be kell töltenie.
Az OmegaT először szerkezeti szintű darabolást hajt végre a szövegen. Ez alatt csak a forrásállomány szerkezete alapján állítja elő a szövegegységeket.
A szöveges állományok feldarabolhatók például sortörésnél, üres sornál, illetve szerkezeti szinten el is maradhat a darabolás. A formázott állományok (OpenOffice.org, OpenDocument, XHTML- és HTML-dokumentumok) blokkszintű címkék szerint (bekezdésjelenként) tagolódnak. XHTML- vagy HTML-állományokban a lefordítható objektumattribútumok szintén külön szövegegységekbe kerülnek.
Miután a forrásállományokat logikai egységekre tagolta, az OmegaT ezeket a blokkokat továbbtagolja mondatokra.
A tagolás folyamat a következő: a kurzor végigmegy a szövegen karakterről karakterre. Minden egyes kurzorpozíciónál minden egyes szabály alkalmazása a megadott sorrendben történik annak megállapítása céljából, hogy a kurzortól balra lévő szövegre illeszkedik-e az Előtte minta, a jobbra lévőre pedig az Utána minta. Ha a szabály alkalmazható, a program befejezi a szabályok vizsgálatát (a kivételszabályt illetően), vagy létrehoz egy új szövegegységet (az elhatároló szabály alapján).
A mondatokra darabolás a Segmentation Rules eXchange (SRX) szabványon alapul - ugyanakkor a program nem támogatja az összes SRX-jellemző használatát. Emellett nincs mód az összes SRX-formájú szabály importálására/exportálására sem. Ha azonban tisztában van azzal, hogy hogyan működik az SRX, akkor alapvetően tudni fogja azt is, miként történik az egységekre tagolás az OmegaT esetén.
Két szabályfajta létezik:
Az elhatároló szabályok a szöveget szövegegységekre bontják. Például a "Volt értelme? Nem voltam biztos benne." két szövegegységre tagolandó, vagyis a "?
"-re léteznie kell egy elhatároló szabálynak.
A kivételszabályok megadják, mely szövegelemek NEM választhatók el a többitől. A pont ellenére a "Mrs. Dalloway" nem tagolandó két szövegegységre, ezért ha a Mrs (Mr, Dr, prof stb.) után pont áll, egy kivételszabályt kell létrehozni.
Az előre meghatározott elhatároló szabályok a legtöbb európai nyelv és a japán esetén elegendőek. A rendszer rugalmassága alapján ajánlatos lehet további kivételszabályokat megfogalmazni az adott forrásnyelvre annak érdekében, hogy az előálló szövegegységek relevánsabbak és koherensebbek legyenek.
Minden adott nyelvhez tartozó szövegdarabolási szabálykészlet alkalmazása meghatározott sorrendben történik, így a megadott nyelvre érvényes szabályok megelőzik az alapbeállítás szerintieket. Például a kanadai francia (FR-CA) szabályai megelőzik a franciáét (FR.*), amely viszont megelőzi az alapbeállítás szerintieket (.*). Így kanadai francia szöveg fordítása közben a projekt az ehhez megadott szabályokat használja, majd utána a franciát, végül pedig az alapbeállítás szabályait, ebben a sorrendben.
Egy meglévő szabálykészlet szerkesztéséhez vagy bővítéséhez kattintson rá a felső táblázatban. Ennek hatására az ablak alsó részén megjelenik a szabálykészlet.
Egy új nyelvi mintához való üres szabálykészlet létrehozásához kattintson a párbeszédablak felső részén lévő Hozzáadás pontra. Egy üres sor jelenik meg a fenti táblázat alján (előfordulhat, hogy megtekintéséhez lefelé kell görgetnie a panelt). Módosítsa a szabálykészlet és a nyelvi minta megnevezését. A nyelvi minta szerkezete a reguláris kifejezések szintaxisát követi. Ha szabálykészlete egy nyelv-ország párost kezel, tanácsos azt az Áthelyezés feljebb gombbal legfölülre vinni.
A Töréspont/Kivétel jelölőnégyzettel azt állíthatja be, hogy elhatároló (pipa) vagy kivételszabályt (nincs pipa) alkalmaz-e. Két reguláris kifejezés, az Előtte és az Utána határozza meg, hogy mi jelenjen meg egy adott helyzet előtt és után ahhoz, hogy darabolási szabálynak vagy kivételszabálynak minősüljön.
Cél |
Előtte |
Utána |
Megjegyzés |
szövegegység kijelölése pont (' |
|
|
a " |
ne legyen szövegegység kijelölve a Mr. után |
|
|
Ez kivételszabály, ezért a szabálynégyzetben nem lehet pipa |
egység beillesztése a "。" (japán pont) után |
|
Az Utána üres |
|
ne legyen szövegegység kijelölve a M., Mr., Mrs. és Ms. után |
|
|
kivételszabály - lásd a ? használatát reguláris kifejezésekben (szűk kvantor) |
A keresésekben és a szövegdarabolásban használatos reguláris kifejezések megegyeznek a Java által támogatottakkal. Rövid összegzésüket lásd: Reguláris kifejezések. További információkat talál itt: http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.
Egyszerű oktatóprogramot számos helyen találhat a neten (pl. http://www.regular-expressions.info/quickstart.html.)
Jogi tudnivalók | Kezdőoldal | Tartalomjegyzék |