Datoteke z navadnim besedilom - v večini primerov pripono .txt
- vsebujejo izključno samo informacijo v obliki besedila. Za datoteke z navadnim besedilom ni jasnega in enoličnega dogovora, kako računalniku sporočiti jezik, v katerem je besedilo sestavljeno. Zelo poenostavljeno lahko rečemo, da računalnik za te datoteke privzame, da je njih vsebina napisana v jeziku, ki ga on sam, računalnik, uporablja.
Ruski uporabnik računalnika bo zelo verjetno delal z računalnikom, ki tudi dela v ruščini. Meniji bodo v ruščini, datoteke, ki jih uporablja, bodo ravno tako v ruščini. V večini primerov bo zato računalnik po pravici lahko privzel naslednje: da bodo datoteke vsebovale edinole in samo znake ruske cirilice.
Če pa se kot ruski prevajalec ukvarjate s prevajanjem iz japonščine, bo računalnik tudi zanje, v kolikor imajo format za običajna besedila, privzel, da gre za besedila v ruščini. V datoteki namreč ni podatkov, na osnovi katerih bi lahko računalnik sklepal na uporabljeni jezik. Vsebina v japonščini bi lahko bila:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Ker vaš urejevalnik pričakuje, da bo besedilo v ruščini, bo stavek imel takle videz:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Segment pa je kot vemo daleč od ruščine, saj gre za japonske znake, ki se jih napačno interpretira kot znake cirilice.
Kot vse druge aplikacije tudi OmegaT ni imun za te težave. OmegaT lahko samo sklepa, da same po sebi datoteke tipa običajno besedilo vsebujejo tekste, ki se jih prikazuje s privzeto nastavitvijo računalnika. Če računalnik govori francosko in datoteke vsebujejo angleško besedilo, s tem ni težav, ravno tako tudi ne, če gre za slovenski računalnik in na primer češčino.
Kako da to gre za angleščino in francoščino, za ruščino in za japonščino pa ne? Vzrok je skupni nabor znakov za francoski in angleški jezik. Z drugo besedo nabor Latin-1, ali ena od njegovih variant. Do nedavna ruščina in japonščina nista imela skupnega nabora znakov. Večina ruskih naborov znakov zato ne pozna japonskih znakov in obratno. Posledice ste imeli priložnost videti zgoraj.
Japonska stranka dela na japonskem računalniku in piše besedila v japonščini. Kateri nabor znakov bo pri tem uporabljen, je odvisno od operacijskega sistema in drugih nastavitev, vendar je zelo malo verjetno, da bi izbrani (japonski) nabor znakov ruski računalnik lahko pravilno interpretiral.
Kako pa se tekstualna informacija na osnovi zahtevanega nabora znakov fizično posreduje (to je, kako se zapisuje v datoteko, da jo računalnik lahko prebere in interpretira) , je odvisno od kodiranja. Ko računalnik datoteko bere, "dekodira" v skladu s kodiranjem informacijo v njej in jo potem v skladu z naborom znakov prikazuje. Poenostavljeno lahko rečemo, da določeno kodiranje odgovarja določenemu naboru znakov.
V bistvu so v OmegaT na razpolago tri možnosti, da se ta problem reši. Pri tem uporabljajo datotečne filtre v meniju .Možnosti
.txt
- : v segmentu besedilne datoteke dvogovora datotečni filtri vstavite za Kodiranje izvornih datotek namesto <auto> kodiranje, ki odgovarja vaši vrsti datotek .txt
..txt
v .jp
): v segmentu besedilne datoteke dvogovora datotečni filtri dodajte novo pripono v Vzorec za imena datotek (na primer *.jp
) in potem za izvorne in ciljne datoteke s to pripono izberite ustrezno kodiranje..txt
v .utf8
. OmegaT bo datoteko odslej razumel kot datoteko vrste UTF-8.OmegaT ima na razpolago kratek seznam pripon, ki vam omogočajo lažje delo z navadnimi besedili:
.txt
OmegaT sam od sebe (avto) razume kot kodirane na privzeti način računalnika..txt1
privzame OmegaT, da so kodirane v skladu z ISO-8859-1 (koda, ki pokriva večino jezikov zahodne Evrope)..txt2
razume OmegaT kot kodirane v ISO-8859-2 (v kodi, ki pokriva večino jezikov srednje in vzhodne Evrope, med drugim tudi slovenščino)..utf8
privzame OmegaT kodo UTF-8 (to je koda, ki vključuje skoraj vse jezike sveta, na primer hkrati angleščino, slovenščino, ruščino in japonščino).Nastavitev lahko preverite tudi sami, če izberete Filtri za datoteke v meniju Možnosti. Če imate na primer pred sabo datoteko v češčini (zelo verjetno zapisano v kodi ISO-8859-2) , vam ni treba drugega kot spremeniti pripono iz .txt
v .txt2
in OmegaT bo vsebino datoteke predstavil pravilno In pa - seveda -, če hočete imeti v bodoče mir, premislite, ali ne bi bilo najpametneje vse pretvoriti v Unicode, t.j. v UTF8 format.
Pravni poduk | Domov | Kazalo |