Práce s prostým textem


Výchozí kódování

Soubory obsahující prostý text - ve většině případů s koncovkou .txt. - obsahuje výhradně textové informace. Obecně není způsob, jak informovat počítač o jazyku souboru. Jednoduše, počítač předpokládá, že text je napsán ve stejném jazyce, který počítač sám používá.


Nesprávné zobrazování znaků

Pokud jste Rus, je velmi pravděpodobné, že váš počítač pracuje též v ruštině: menu jsou v ruštině, soubory, které otevíráte budou v ruštině atd. Ve většině případů počítač správně předpokládá s ohledem na obsah souborů zhruba toto: všechny tyto soubory obsahují ruštinu a neobsahují nic, co by ruské znaky nemohli zobrazit.

Nyní, pokud jste ruský překladatel, který překládá z japonštiny, dostanete japonské soubory, pokud jsou to soubory s prostým textem, tak budou s největší pravděpodobností počítačem považované za soubory, které obsahují ruštinu. Protože zde chybí informace v samotném souboru, která by počítači prozradila, ve kterém jazyce jsou napsané.

Obsah japonského souboru by mohl být následující:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Ale váš textový editor by to mohl klidně interpretovat následovně:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB

Protože očekává, že obsah je ruština ... Ale není to ruština. Toto jsou japonské znaky nesprávně zobrazené jako znaky ruské.

Program OmegaT není jiný. OmegaT předpokládá, že soubory s prostým textem obsahují text, který může být automaticky zobrazený pomocí výchozích nastavení počítače. Toto funguje bezchybně, když počítač pracuje ve francouzštině a když dostanete anglické soubory, nebo když počítač je německý a pokud dostanete italské soubory.


Znakové sady a kódování

Proč by to fungovalo s angličtinou a francouzštinou, ale ne s ruštinou a japonštinou? Protože angličtina a francouzština používají společnou znakovou sadu. Jmenovitě Latin-1 nebo variaci. Ruština a japonština ještě donedávna nepoužívali žádné společné znakové sady. Většina současných ruských znakových sad nepokrývá japonštinu a opačně. Výsledek je tedy takový, jak bylo ukázáno výše.

Japonský klient pracuje s japonským počítačem a vytváří textové soubory, které obsahují japonštinu. Výběr znakové sady počítačem klienta bude záležet na operačním systému a na jiných nastaveních, ale je velmi nepravděpodobné, že vybraná (japonská) znaková sada bude správně interpretovaná ruským počítačem.

Takže způsob jak budou textové informace v zadané znakové sadě fyzicky přenesené (tj. jak je to napsáno v souboru pro počítač na interpretaci a zobrazení) záleží právě na kódování. Když počítač čte soubor, "dekóduje" informace podle kódování a zobrazí je podle znakové sady. Podtrženo sečteno, jedno kódování odpovídá jedné znakové sadě ...


Řešení pomocí OmegaT

V programu OmegaT jsou v podstatě k dispozici 3 způsoby jak na věc. Všechny tři způsoby zahrnují použití filtrů souborů v menu Možnosti.

  1. Zadejte kódování pro vaše soubory obsahující prostý text - tj. soubory s koncovkou .txt.
    V sekci Textové soubory okna filtrů souborů změňte Kódování zdrojových souborů z hodnoty <auto> na kódování, které odpovídá zdrojovému souboru .txt.
  2. Změňte koncovku zdrojových souborů obsahujících prostý text - např. u japonského prostého textu z .txt na .jp
    V sekci Textové soubory okna filtry souborů, přidejte *.jp Vzor názvu zdrojového souboru a označte příslušné parametry pro kódování zdrojového a cílového souboru.
  3. Otevřete svůj zdrojový soubor v textovém editoru, který správně interpretuje kódování souboru a uložte soubor s kódováním "UTF-8".
    Změňte koncovku souboru z .txt na .utf8.
    OmegaT bude soubor interpretovat jako soubor UTF-8.

Současně je program OmegaT nastaven tak, aby zpracovával soubory s prostým textem následovně

Můžete si to ověřit sami tak, že označíte položku Filtry souborů v menu Možnosti.

Program OmegaT uchovává krátký seznam, který vám pomůže v této věci, jak si poradit s některými soubory obsahujícími prostý text.

Například když máte soubor v češtině (velmi pravděpodobně napsaný v kódování ISO-8859-2), pak jednoduše potřebujete jen změnit koncovku .txt na .txt2a OmegaT bude interpretovat obsah souboru správně.


Právní poznámky