Werken met platte tekst


Standaard codering

Platte-tekst bestanden - meestal met de extensie .txt - bevatten exclusief tekstuele informatie. Er bestaat geen helder gedefinieerde manier om de computer te vertellen welke taal zij bevatten. In (erg) simpele woorden: dat betekent dat de computer per definitie aanneemt dat de tekst is geschreven in de taal die de computer zelf gebruikt.


Verminkte weergaven

Als u Russisch bent is het zeer waarschijnlijk dat uw computer ook in het Russisch werkt: de menu's zijn in het Russisch, de bestanden die u opent zijn in het Russisch etc. In de meeste gevallen maakt de computer de juiste aanname met betrekking tot bestanden in het algemeen: zij bevatten allemaal Russisch en niet-Russische tekens kunnen niet worden weergegeven.

Maar als u een Russische vertaler bent die vertaalt vanuit het Japans, zullen de Japanse bestanden die u zult krijgen, als zij platte tekst-bestanden zijn, door de computer waarschijnlijk worden geïnterpreteerd als zijnde bestanden die Russisch bevatten. Omdat er in het bestand zelf geen informatie aanwezig is die aan de computer duidelijk maakt in welke taal zij zijn geschreven. De Japanse bestandsinhoud zou kunnen zijn:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Omdat het verwacht dat de inhoud Russisch is zou uw tekstverwerkingsprogramma dit zeer goed weer kunnen geven als:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB


Dit lijkt echter in niets op Russisch, dit zijn Japanse tekens die foutief worden weergegeven als Russische tekens.

Net als elke andere toepassing heeft ook OmegaT last van dit probleem. Het kan alleen aannemen dat als standaard platte tekst-bestanden kunnen worden weergegeven met behulp van de systeemstandaarden. Dat werkt prima als de computer bijvoorbeeld in het Frans werkt en u krijgt Engelse bestanden of als de computer Duits is en u met Italiaanse bestanden werkt.


Tekensets en coderingen

Waarom zou dat wel werken met Engels en Frans maar niet met Russisch en Japans? Omdat Engels en Frans een algemene tekenset delen. Namelijk Latin-1, of een variatie daarvan. Tot voor kort deelden Russisch en Japans geen tekensets. De meeste huidige Russische tekensets kunnen niet overweg met Japans en andersom. Het resultaat heeft u hierboven gezien.

De Japanse cliënt werkt met een Japanse computer en maakt tekstbestanden die Japans bevatten. De tekenset die werd geselecteerd door de computer van de cliënt zal afhankelijk zijn van het besturingssysteem en andere instellingen, maar het is zeer onwaarschijnlijk dat de gekozen (Japanse) tekenset juist zal worden geïnterpreteerd door de Russische computer.

Hoe de tekstuele informatie in de gespecificeerde tekenset fysiek wordt verzonden (dat is: welke numerieke codes gebruikt de computer om tekst te interpreteren en weer te geven) is afhankelijk van een codering. Als de computer het bestand leest, "decodeert" het de informatie overeenkomstig de codering en geeft het die weer overeenkomstig de tekenset. Algemeen gesproken correspondeert één codering met één tekenset...


De OmegaT-oplossing

Er bestaan in principe drie manieren om dit op te lossen in OmegaT. Zij behelzen allemaal het gebruik van de bestandsfilters in het menu Opties.

  1. Specificeer de codering voor uw platte tekst bestanden - dat zijn bestanden met de extensie .txt - : wijzig, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, de Codering van bronbestand van <auto> naar de codering die overeenkomt met uw bron .txt-bestand.
  2. Wijzig de extensies van uw platte tekst-bronbestanden - bijvoorbeeld van .txt naar .jp voor Japanse platte teksten.: voeg, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, een nieuw Patroon voor bronbestanden toe (bijvoorbeeld *.jp) en selecteer de toepasselijke parameters voor de bron- en doelcodering.
  3. Wijzigen van de codering van uw bestanden naar Unicode: Open uw bronbestand in een tekstverwerker die zijn codering juist interpreteert en sla het bestand op met de codering "UTF-8". Wijzig de bestandsextensie van .txt naar .utf8. OmegaT zal het bestand automatisch interpreteren als een UTF8-bestand.

OmegaT heeft standaard het volgende lijstje beschikbaar om het voor u eenvoudiger te maken om sommige platte tekstbestanden te behandelen.

U kunt dat zelf controleren door het item Bestandsfilters te selecteren in het menu Opties. Als u bijvoorbeeld een Tsjechisch tekstbestand (zeer waarschijnlijk geschreven in de code ISO-8859-2) hebt, hoeft u alleen maar de extensie te wijzigen van .txt naar .txt2 en OmegaT zal de inhoud juist interpreteren. Indien u echter op zeker wilt spelen kunt u overwegen om dit soort bestanden te converteren naar Unicode, dat is: naar de bestandsindeling .utf8.


Auteursrechten Home Inhoudsopgave