Os arquivos de texto simples contêm exclusivamente informações em texto. Os arquivos de texto simples não têm forma definida de informar o computador que linguagem eles contêm. Falando por cima, isto significa que o computador considera por predefinição que o conteúdo do arquivo está na mesma linguagem do computador.
Um arquivo de texto simples é, na maioria dos casos, um arquivo com a extensão .txt.
Se você é russo, é provável que seu computador funcione em russo também; os menus estão em russo, os arquivos que você abre estarão em russo, etc. Na maioria dos casos, o computador deduz corretamente sobre o conteúdo dos arquivos em geral: eles todos contêm russo e não mostram nada além dos caracteres russos.
Agora, se você for um tradutor russo que traduz do japonês, os arquivos em japonês que receberá, se forem texto simples provavelmente serão considerados pelo computador como arquivos contendo russo. Isto porque não há informações nos próprios arquivos para indicar ao computador na qual língua eles foram escritos.
O conteúdo dos arquivos em japonês pode ser:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Mas seu editor de texto poderia muito bem exibir o texto assim:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Porque espera que o conteúdo seja russo... Mas não é russo. São caracteres japoneses exibidos de forma errada como caracteres russos.
O OmegaT não é diferente. Ele considera que os arquivos de texto simples contêm texto que podem ser exibidos automaticamente usando as configurações padrões do computador. Isto funciona quando o computador opera em francês e você recebe arquivos em inglês, ou quando o computador é alemão e você recebe arquivos em italiano.
Por que então funciona com inglês e francês, mas não com russo e japonês? Porque inglês e francês compartilham o mesmo conjunto de caracteres. Especificamente, o Latin-1, ou uma variação.
Até recentemente, o russo e o japonês não compartilhavam nenhum conjunto de caracteres. Os conjuntos mais recentes de caracteres russos não cobrem os japonês e vice-versa. O resultado é o mostrado acima.
O cliente japonês trabalha com um computador japonês e cria arquivos de texto contendo caracteres japoneses. O conjunto de caracteres selecionado pelo computador do cliente dependerá do sistema operacional e de outras configurações, mas será difícil que o conjunto escolhido (japonês) seja interpretado corretamente por um computador russo.
Agora, como as informações de texto em um conjunto de caracteres específico são transmitidas fisicamente (isto é, como são escritas no arquivo para o computador interpretar e exibir) depende de uma codificação. Quando o computador lê o arquivo, ele "decodifica" as informações de acordo com a codificação; depois, elas são exibidas de acordo com o conjunto de caracteres. Em termos gerais, uma codificação corresponde a um conjunto de caracteres...
Existem basicamente 3 maneiras de fazer isso funcionar no OmegaT.
Atualmente, o OmegaT está ajustado para entender arquivos de texto simples da seguinte maneira: (você pode verificar isso selecionando o item Filtros de arquivos no menu Opções. Clique na linha Arquivos de texto e depois no botão Editar.)
Claro que as codificações de arquivo .txt1, .txt2 e .utf8 não existem na vida real. O OmegaT preparou uma lista pequena que poderá facilitar seu trabalho ao lidar com arquivos estrangeiros.
Portanto, agora, quando você tiver um arquivo em francês (in_french.txt por exemplo) para traduzir em um computador japonês, visto que é provável que ele foi criado com a codificação ISO-8859-1 acrescente 1 no final do seu nome (in_french.txt1) e o OmegaT interpretará corretamente que ele contém um ISO-8859-1... Et voilà!