Текущие плагины и программы для Mozilla Firefox ® и др. Кодировщик текста


Universal online Cyrillic decoder - recover your texts

Version: 20180502

Output

The resulting text will be displayed here...

Guestbook

Please link to this site! <a href="http://2cyr.com/decode/">Universal Cyrillic decoder</a>

Donate via PayPalYou can help keeping the service running and without ads.

Donate Bitcoins192KAYCwZsHNTug634rPkGChiVzXufXsGw

Custom WorkFor a small fee I can help you quickly recode/recover large pieces of data - texts, databases, websites... or write custom functions you can use (invoice available).Contact me! mailto:5ko [snail] 5ko [period] fr?subject=Request%20via%202cyr [period] com

About the program

Welcome! You may find this site useful, if you have recieved some texts that you believe are written in the Cyrillic alphabet, but instead are displayed in some strange combination of bizarre characters. This program will try to guess the encoding, and if it does not, it will show samples, examples of all encoding-combinations, so as you will be able to select the good one.

How to

  • Paste the text to decypher in the big text area. The first few words will be analysed so they should be (scrambled) in supposed Cyrillic.
  • The program will try to decypher the text and will print the result below.
  • If the translation is successful, you will see the text in Cyrillic characters and will be able to copy it and save it if it's important.
  • If the translation isn't successful (still the text is not in Cyrillic but in the same or other unintelligible characters), you can choose from the newly created select-listbox the variant that is in Cyrillic (if there are more than one, select the longest). By pressing the button OK you will have the correct text converted.
  • If the text is not totally converted, try all other variants in Cyrillic from the select-listbox.

Limits

  • If your text contains question marks "???? ?? ??????", the problem is with the sender and no recovery will be possible. Ask them to resend the text, eventually as an ordinary text file or in LibreOffice/OpenOffice/MSOffice format.
  • There is no claim that every text is decypherable, even if you are certain that the text is in Cyrillic.
  • The analyzed and converted text is limited to 100 KiB.
  • A 100% precision is not always achieved - in a conversion from a codepage to another code page, some characters may be lost, like the Bulgarian quotes or rarely some single letters. Some of this depends on your Windows Clipboard character handling.
  • The program will try a maximum of 6321 variants in two or three levels: if there had been a multiple encoding like koi8(utf(cp1251(utf))), it will not be detected or tested. Usually the possible and displayed correct variants are between 32 and 255.
  • If a part of the text is encoded with one code page, and another part - with another code page, the program could recognize only one of the parts at a time.

Terms of use

Please notice that this freeware program is created with the hope that it would be useful, but has no warranty, not even an implied warranty for fitness for any particular use. Please use it at your own risk.

If you have very long texts to translate, please make sure you have a backup copy.

What's new

  • October 2017 : Added "Select all / Copy" button.
  • July 2016 : SSL Certificate installed, you can now access the Decoder on a secure connection.
  • October 2013 : I am trying different optimizations for the system which should make the decoder run faster and handle more text. If you notice any problem, please notify me ASAP.
  • March 2013 : My hosting provider sent me a warning that the Decoder is using too much server CPU power and its processes were killed more than 100 times. I am making some changes so that the program will use less CPU, especially when reposting a previously sampled text, however, the decoded form may load somewhat slower. Please contact me if you have some difficulties using the program.
  • 2012-08-09 : Added French translation, thanks to Arnaud D.
  • 2011-03-06 : Added Belorussian translation, thanks to Зыль and Aliaksandr Hliakau.
  • 31.07.10 : Added Serbian translation, thanks to Miodrag Danilovic (Boston - Beograd).
  • 07.05.09 : Raised limit of MAX text size to 50 kiB.
  • may 2009 : Added Ukrainian interface thanks to Barmalini.
  • 2008-2009 : A number of small fixes and tweaks of the detection algorythm. Changed interface to default to automatic decoding.
  • 12.08.07 : Fixed Russian language translation, thanks to Petr Vasilyev. This page will be significantly restructured in the near future.
  • 10.11.06 : Three new postfilters added: "base64", "unix-to-unix" и "bin-to-hex", theoretically the tested combinations are 4725. Changes to the frequency analysis function (testing).
  • 11.10.06 : The main site is on a new hardware server, should run faster.
  • 11.09.06 : The program now uses PHP5 and should run times faster.
  • 19.08.06 : Because of a broken DNS entry, this site was inaccessible from 06:00 on 15 august up to 15:00 on 18 august. That was the reason for me to set two "mirror" sites (5ko.free.fr/decode and www.accent.bg/decode) with the same program. If the original has a problem, you can find the copies in Google and recover your texts.
  • 17.06.06 : Added two more antique cyrillic encodings, MIK и KOI-7, but you better not need them.
  • 03.03.06 : Added Slovak translation, thanks to Martin from KPR Slovakia.
  • 15.02.06 : More encodings added and tested.
  • 20.10.05 : Small improvement to the frequency-analysis function: for texts, written in all-capital letters.
  • 14.10.05 : Two more gmail-cyrillic encodings were added. Theoretically the tested combinations are 2112.
  • 15.06.05 : Russian language interface was added. Big thanks to chAlx!
  • 16.02.05 : One more postfilter decoding is added, for strings like this: "%u043A%u0438%u0440%u0438%u043B%u0438%u0446%u0430".
  • 05.02.05 : More encodings tests added, the number of tested encodings is doubled, but thus the program may work slightly slower.
  • 03.02.05 : The frequency analysis function that detects the original encoding works much better now. Currently the program recognises most of the encodings if the first few words are not too weird. It although still needs some improvement.
  • 15.01.05 : The input text limit is raised from 10 to 20 kB.
  • 01.12.04 : First public release.

Back to the Latin to Cyrillic convertor.

2cyr.com

Перевод кодировки онлайн

Если вам прислали текстовый документ, информация в котором отображается в виде странных и непонятных символов, можно предположить, что автор использовал кодировку, не распознаваемую вашим компьютером. Для изменения кодировки существуют специальные программы-декодеры, однако куда проще воспользоваться одним из онлайн-сервисов.

Сайты для перекодировки онлайн

Сегодня мы расскажем о самых популярных и действенных сайтах, которые помогут угадать кодировку и изменить ее на более понятную для вашего ПК. Чаще всего на таких сайтах работает автоматический алгоритм распознавания, однако в случае необходимости пользователь всегда может выбрать подходящую кодировку в ручном режиме.

Способ 1: Универсальный декодер

Декодер предлагает пользователям просто скопировать непонятный отрывок текста на сайт и в автоматическом режиме переводит кодировку на более понятную. К преимуществам можно отнести простоту ресурса, а также наличие дополнительных ручных настроек, которые предлагают самостоятельно выбрать нужный формат.

Работать можно только с текстом, размер которого не превышает 100 килобайт, кроме того, создатели ресурса не гарантируют, что перекодировка будет в 100% случаев успешной. Если ресурс не помог – просто попробуйте распознать текст с помощью других способов.

Перейти на сайт Универсальный декодер

  1. Копируем текст, который нужно декодировать, в верхнее поле. Желательно, чтобы в первых словах уже содержались непонятные символы, особенно в случаях, когда выбрано автоматическое распознавание.
  2. Указываем дополнительные параметры. Если необходимо, чтобы кодировка была распознана и преобразована без вмешательства пользователя, в поле «Выберите кодировку» щелкаем на «Автоматически». В расширенном режиме можно выбрать начальную кодировку и формат, в который нужно преобразовать текст. После завершения настройки щелкаем на кнопку «ОК».
  3. Преобразованный текст отобразится в поле «Результат», оттуда его можно скопировать и вставить в документ для последующего редактирования.

Обратите внимание на то, что если в отправленном вам документе вместо символов отображается «???? ?? ??????», преобразовать его вряд ли получится. Символы появляются из-за ошибок со стороны отправителя, поэтому просто попросите отправить вам текст повторно.

Способ 2: Студия Артемия Лебедева

Еще один сайт для работы с кодировкой, в отличие от предыдущего ресурса имеет более приятный дизайн. Предлагает пользователям два режима работы, простой и расширенный, в первом случае после декодировки пользователь видит результат, во втором случае видна начальная и конечная кодировка.

Перейти на сайт Студия Артемия Лебедева

  1. Выбираем режим декодировки на верхней панели. Мы будем работать с режимом «Сложно», чтобы сделать процесс более наглядным.
  2. Вставляем нужный для расшифровки текст в левое поле. Выбираем предполагаемую кодировку, желательно оставить автоматические настройки — так вероятность успешной дешифровки возрастет.
  3. Щелкаем на кнопку «Расшифровать».
  4. Результат появится в правом поле. Пользователь может самостоятельно выбрать конечную кодировку из ниспадающего списка.

С сайтом любая непонятная каша из символов быстро превращается в понятный русский текст. На данный момент работает ресурс со всеми известными кодировками.

Способ 3: Fox Tools

Fox Tools предназначен для универсальной декодировки непонятных символов в обычный русский текст. Пользователь может самостоятельно выбрать начальную и конечную кодировку, есть на сайте и автоматический режим.

Дизайн простой, без лишних наворотов и рекламы, которая мешает нормальной работе с ресурсом.

Перейти на сайт Fox Tools

  1. Вводим исходный текст в верхнее поле.
  2. Выбираем начальную и конечную кодировку. Если данные параметры неизвестны, оставляем настройки по умолчанию.
  3. После завершения настроек нажимаем на кнопку «Отправить».
  4. Из списка под начальным текстом выбираем читабельный вариант и щелкаем на него.
  5. Вновь нажимаем на кнопку «Отправить».
  6. Преобразованный текст будет отображаться в поле «Результат».

Несмотря на то, что сайт якобы распознает кодировку в автоматическом режиме, пользователю все равно приходится выбирать понятный результат в ручном режиме. Из-за данной особенности куда проще воспользоваться описанными выше способами.

Читайте также: Выбор и изменение кодировки в Microsoft Word

Рассмотренный сайты позволяют всего в несколько кликов преобразовать непонятный набор символов в читаемый текст. Самым практичным оказался ресурс Универсальный декодер — он безошибочно перевел большинство зашифрованных текстов.

Мы рады, что смогли помочь Вам в решении проблемы. Задайте свой вопрос в комментариях, подробно расписав суть проблемы. Наши специалисты постараются ответить максимально быстро.

Помогла ли вам эта статья?

Да Нет

lumpics.ru

Кодировка текста - что это такое: как и где её правильно применять

Наши компьютеры понимают только собственный язык нулей и единиц. А чтобы работать с остальными языками, переводят их на свой, вплоть до символа. Это и называется кодировка текста, какого угодно, где каждому символу отведен свой числовой код. Все буквы и остальные знаки хранятся в виде цифр.

Системы кодировок бывают разные. Иногда сайт или текстовая программа неправильно определяют кодировку. Тогда вместо текста мы видим непонятный набор символов.

Чтобы превратить их в читабельный текст, нужно подобрать правильную кодировку. Проще всего сделать это онлайн. На сайте любого декодера нужно только вставить испорченный текст. Декодер сам подберет нужную кодировку и решит проблему.

Кодировка из девяностых

Самый распространённый и широко охватывающий большинство языков стандарт кодировки текста — unicode. В далёком 1991-м году он был предложен как способный вместить в себе любой символ, от иероглифов до специальных знаков музыкальной нотации. Теперь это самая популярная система кодирования текста в интернете. Сохраняя текст в этом стандарте вы скорее всего избежите проблем с декодированием.

Закодировать текст легко

Кодировку текста легко задать почти во всех текстовых редакторах, даже в блокноте. В меню «файл», в разделе кодировки выбирайте подходящую для вас. После чего весь набранный текст будет сохраняться с заданным параметром. Если такого пункта меню вашего блокнота нет, кодировку можно установить при сохранении. Нужно нажать «сохранить как», появится окошко, где выбирается название, тип файла и кодировка.

В более продвинутых текстовых редакторах менять кодировку так же легко. В программе word задать кодировку можно при сохранении. Для этого в меню «файл» (или «ms office» в новых версиях) нужно выбрать пункт «сохранить как…». Теперь нужно вписать название, выбрать тип файла «обычный текст» и нажать кнопку «сохранить». Появится окно, где можно будет выбрать нужную кодировку.

Иногда некорректно отображается текст в excel файлах. Чтобы исправить это, нужно открыть саму программу, выбрать там вкладку «данные» и для получения внешних данных выбрать пункт «из текста». В открывшемся окне отыскиваем наш проблемный файл, выделяем и жмём кнопку «импорт». Теперь для этого файла можно подобрать кодировку, визуально контролируя процесс в окне предварительного просмотра. После останется только сохранить.

Закодированные тексты на ваших сайтах

Так как вычислительные системы понимают только переведённый в цифры текст, один и тот же материал в разных кодировках будет выглядеть для них по-разному. Эта особенность используется некоторыми для плагиата. Всё ещё есть роботы, проверяющие уникальность, которые могут не отличить текст с непривычной им кодировкой. Но если его скопировать в блокнот, он станет нечитабельным или обрастет лишними символами.

Браузер воспринимает текст сайта тоже через кодировку. Если она будет неправильно подобрана, вместо текста будут вопросы или непонятные знаки. Кодировка задается в head, в теге. В кавычках может быть любой стандарт, но utf-8 самый распространенный из них. Поэтому для своих русскоязычных проектов используйте её. Тогда ваши сайты будут корректно отображаться в любом браузере.

Чтобы детальнее разобраться с особенностями кодировки для вашего сайта, смотрите видеоуроки. В них наглядно разбираются вероятные проблемы и их решения. На портале у Михаила Русакова есть целый ряд таких уроков. Там можно найти ответы на множество вопросов по верстке сайтов.

А то, что уже умеете, сможете делать качественнее и быстрее, учась у профессионалов. Все уроки вы сможете сохранить в компьютере, просматривая при необходимости снова.

Подписывайтесь на обновления моего блога, чтобы не пропустить самое интересное. Также добавляйтесь в мою группу Вконтакте, где свежие дублируются свежие обновления. Так вы сможете видеть их прямо в своей ленте новостей.

start-luck.ru

Перекодировка текста онлайн

Периодически случается так, что приходят письма, которые невозможно прочитать — они заполнены какими-то непонятными знаками. Происходит такое и с документами. Причина этого кроется в использовании неверной кодировки символов. Что с этим можно сделать, как прочитать что там написано?

Есть два варианта: самому подбирать кодировки или доверить этот процесс специальным программам. Алгоритм нахождения исходной кодировки не очевиден и, скорее всего, сведется к простому перебору. Это долгий и неэффективный метод. Использование онлайн программ позволяет практически мгновенно увидеть читабельный текст.

Способы конвертирования текста онлайн

Любая поисковая система в ответ на запрос «Перекодирование онлайн» выдаст несколько адресов, где можно бесплатно расшифровать текст. Мы рассмотрим наиболее популярные и удобные сервисы, которые без труда переведут нечитаемый текст в изначальный вид.

Способ 1: 2Cyr

Универсальный декодер работает только с кириллическими символами. Сервис пытается изменить кодировку, но если это сделать не удается, предлагаются другие варианты для выбора. На странице можно ознакомиться с пошаговым алгоритмом действий и небольшим количеством теории.

Перейти на сайт 2Cyr

Для перекодировки текста нужно выполнить следующие действия:

  1. Зайдите на сайт сервиса.
  2. Вставьте скопированный из источника текст в поле для декодирования.
  3. Размер исходного текста ограничен 100 КБ.

  4. В поле «Выбрать кодировку» нажмите на стрелку в конце поля. При этом выпадет список названий таблиц символов. Наведите указатель мыши на нужную. Если нет навыка в определении кодировки по виду знаков, рекомендуется оставить автоматический подбор. Запустите процесс, нажав кнопку «ОК» справа от поля выбора кодировки.
  5. Через небольшой промежуток времени в нижнем поле появится результат.
  6. Универсальный декодер определил тип исходной кодировки, но не справился с некоторыми символами. Тем не менее, текст можно прочитать и приблизительно понять, о чем идет речь. Конвертер кириллицы также предоставляет возможность посмотреть и выбрать альтернативные варианты расшифровки.

  7. В строке «Выберите читаемый вариант перекодировки» нажмите на стрелку справа. В выпадающем окне появится список вариантов. Выберите с помощью мыши любой и нажмите кнопку «ОК», которая находится справа.
  8. Итог появится в поле для результата.
  9. Способ 2: Alexpad

    В отличие от предыдущего декодера, здесь текст можно не только скопировать в поле, но и загрузить из файла. Документ должен быть в формате TXT и размером не более 500 КБ.

    Alexpad работает со всеми известными кодировками символов. На этом сайте также, как и на 2Cyr, есть теоретическая информация о проблеме, и о том как работает перекодировщик. Для ускорения работы декодер обрабатывает по 200 символов. Делает он это достаточно быстро, но если имеется большой текст, придется все время вставлять и копировать его куски.

    Перейти на сайт Alexpad

    Шаги по расшифровке текста с помощью этого сайта должны быть такими:

    1. Перейдите по ссылке выше.
    2. Скопированный тестовый фрагмент вставьте в поле.
    3. Нажмите кнопку «Определить».
    4. Результат выдается в виде таблицы, где текст приведен не полностью.
    5. Чтобы увидеть всю расшифрованную запись, необходимо нажать на кнопку с изображением двух стрелок.
    6. Другие варианты расшифровки можно увидеть, нажав на кнопку «Все найденные».

    Способ 3: Декодер студии Артемия Лебедева

    Расшифровщик дизайн студии имеет минималистичное оформление. Кроме поля для исходного текста на странице имеются кнопки для выбора простого или сложного перекодирования.

    Перейти на сайт студии Артемия Лебедева

    Работа с ним происходит следующим образом:

    1. Зайдите на сайт по ссылке, указанной выше.
    2. Текст для перекодировки вставьте в соответствующее поле.
    3. Выберите режим декодирования кнопками «Просто» или «Сложно». В данном случае выбран простой способ преобразования.
    4. Нажмите «Расшифровать».
    5. В режиме «Просто» результат работы Декодера Артемия Лебедева появляется в том же поле, куда ранее был вставлен текст.

      Итоговую информацию можно понять, но невозможно использовать в документах. Определены исходная и конечные кодировки символов.

    6. Для более глубокого преобразования следует нажать поле «Сложно».

      При этом способе доступен выбор таблиц символов. По умолчанию используется автоматическая кодировка.

    7. Целевая таблица символов выбирается щелчком мыши на поле «Автоматическая кодировка».
    8. Результат расшифровки можно увидеть во втором поле Декодера. В зависимости от разрешения монитора оно находится либо внизу экрана, либо справа.

    Качество обработки примерно такое же, как и в простом режиме. Присутствует информация об исходной и конечной кодировках текста.

    Тестирование онлайн перекодировщиков подтвердило, что, к сожалению, не всякий текст может быть приведен к нужному виду без ошибок. Когда сервис не может найти соответствие какому-то числу, он подставляет на его место символ, близкий по числовому значению, а не изображению. Обычно используется вопросительный знак «?», но могут применяться и другие варианты. В таких случаях нужно или согласиться с таким представлением и попробовать разобраться в том, что получилось, или обратиться к профессионалам. Тем не менее, онлайн-декодеры имеют право на жизнь. Они часто помогают прочитать то, что, на первый взгляд, прочитать невозможно.

itcreeper.ru

Кодирование текстовой информации

Чаще всего кодированию подвергаются тексты, написанные на естественных языках (русском, немецком и др.).

Основные способы кодирования текстовой информации

Существует несколько основных способов кодирования текстовой информации:

  1. графический, в котором текстовая информация кодируется путем использования специальных рисунков или знаков;
  2. символьный, в котором тексты кодируются с использованием символов того же алфавита, на котором написан исходник;
  3. числовой, в котором текстовая информация кодируется с помощью чисел.

Процесс чтения текста представляет собой процесс, обратный его написанию, в результате которого письменный текст преобразуется в устную речь. Чтение – это ничто иное, как декодирование письменного текста.

А сейчас обратите внимание на то, что существует много способов кодирования одного и того же текста на одном и том же языке.

Пример 1

Поскольку мы русские, то и текст привыкли записывать с помощью алфавита своего родного языка. Однако тот же самый текст можно записать, используя латинские буквы. Иногда это приходится делать, когда мы отправляем SMS по мобильному телефону, клавиатура которого не содержит русских букв, или же электронное письмо на русском языке за границу, если у адресата нет русифицированного программного обеспечения. Например, фразу «Здравствуй, дорогой Саша!» можно записать как: «Zdravstvui, dorogoi Sasha!».

Стенография

Определение 1

Стенография — это один из способов кодирования текстовой информации с помощью специальных знаков. Она представляет собой быстрый способ записи устной речи. Навыками стенографии могут владеть далеко не все, а лишь немногие специально обученные люди, которых называют стенографистами. Эти люди успевают записывать текст синхронно с речью выступающего человека, что, на наш взгляд, достаточно сложно. Однако для них это не проблема, поскольку в стенограмме целое слово или сочетание букв могут обозначаться одним знаком. Скорость стенографического письма превосходит скорость обычного в $4-7$ раз. Расшифровать (декодировать) стенограмму может только сам стенографист.

Пример 2

На рисунке представлен пример стенографии, в которой написано следущее: «Говорить умеют все люди на свете. Даже у самых примитивных племен есть речь. Язык — это нечто всеобщее и самое человеческое, что есть на свете»:

Рисунок 1.

Стенография позволяет не только вести синхронную запись устной речи, но и рационализировать технику письма.

Замечание 1

Приведёнными примерами мы проиллюстрировали важное правило: для кодирования одной и той же информации можно использовать разные способы, при этом их выбор будет зависеть от цели кодирования, условий и имеющихся средств.

Если нам нужно записать текст в темпе речи, сделаем это с помощью стенографии; если нужно передать текст за границу, воспользуемся латинским алфавитом; если необходимо представить текст в виде, понятном для грамотного русского человека, запишем его по всем правилам грамматики русского языка.

Также немаловажен выбор способа кодирования информации, который, в свою очередь, может быть связан с предполагаемым способом её обработки.

Пример 3

Рассмотрим пример представления чисел количественной информации. Используя буквы русского алфавита, можно записать число «тридцать пять». Используя же алфавит арабской десятичной системы счисления, запишем: $35$. Допустим нам необходимо произвести вычисления. Естественно, что для выполнения расчётов мы выберем удобную для нас запись числа арабскими цифрами, хотя можно примеры описывать и словами, но это будет довольно громоздко и не практично.

Замечание 2

Заметим, что приведенные выше записи одного и того же числа используют разные языки: первая — естественный русский язык, вторая — формальный язык математики, не имеющий национальной принадлежности. Переход от представления на естественном языке к представлению на формальном языке можно также рассматривать как кодирование.

Криптография

В некоторых случаях возникает потребность засекречивания текста сообщения или документа, для того чтобы его не смогли прочитать те, кому не положено. Это называется защитой от несанкционированного доступа. В таком случае секретный текст шифруется. В давние времена шифрование называлось тайнописью.

Определение 2

Шифрование представляет собой процесс превращения открытого текста в зашифрованный, а дешифрование — процесс обратного преобразования, при котором восстанавливается исходный текст. Шифрование — это тоже кодирование, но с засекреченным методом, известным только источнику и адресату. Методами шифрования занимается наука криптография.

Определение 3

Криптография — это наука о методах и принципах передачи и приема зашифрованной с помощью специальных ключей информации. Ключ — секретная информация, используемая криптографическим алгоритмом при шифровании/расшифровке сообщений.

Числовое кодирование текстовой информации

В каждом национальном языке имеется свой алфавит, который состоит из определенного набора букв, следующих друг за другом, а значит и имеющих свой порядковый номер.

Каждой букве сопоставляется целое положительное число, которое называют кодом символа. Именно этот код и будет хранить память компьютера, а при выводе на экран или бумагу преобразовывать в соответствующий ему символ. Помимо кодов самих символов в памяти компьютера хранится и информация о том, какие именно данные закодированы в конкретной области памяти. Это необходимо для различия представленной информации в памяти компьютера (числа и символы).

Используя соответствия букв алфавита с их числовыми кодами, можно сформировать специальные таблицы кодирования. Иначе можно сказать, что символы конкретного алфавита имеют свои числовые коды в соответствии с определенной таблицей кодирования.

Однако, как известно, алфавитов в мире большое множество (английский, русский, китайский и др.). Соответственно возникает вопрос, каким образом можно закодировать все используемые на компьютере алфавиты.

Чтобы ответить на данный вопрос, нам придется заглянуть назад в прошлое.

В $60$-х годах прошлого века в американском национальном институте стандартизации (ANSI) была разработана специальная таблица кодирования символов, которая затем стала использоваться во всех операционных системах. Эта таблица называется ASCII (American Standard Code for Information Interchange, что означает в переводе с английского «американский стандартный код для обмена информацией»).

В данной таблице представлен $7$-битный стандарт кодирования, при использовании которого компьютер может записать каждый символ в одну $7$-битную ячейку запоминающего устройства. При этом известно, что в ячейке, состоящей из $7$ битов, можно сохранять $128$ различных состояний. В стандарте ASCII каждому из этих $128$ состояний соответствует какая-то буква, знак препинания или же специальный символ.

В процессе развития вычислительной техники стало ясно, что $7$-битный стандарт кодирования достаточно мал, поскольку в $128$ состояниях $7$-битной ячейки нельзя закодировать буквы всех письменностей, имеющихся в мире.

Чтобы решить эту проблему, разработчики программного обеспечения начали создавать собственные 8-битные стандарты кодировки текста. За счет дополнительного бита диапазон кодирования в них был расширен до $256$ символов. Во избежание путаницы, первые $128$ символов в таких кодировках, как правило, соответствуют стандарту ASCII. Оставшиеся $128$ - реализуют региональные языковые особенности.

Замечание 3

Как мы знаем национальных алфавитов огромное количество, поэтому и расширенные таблицы ASCII-кодов представлены множеством вариантов. Так для русского языка существует также несколько вариантов, наиболее распространенные Windows-$1251$ и Koi8-r. Большое количество вариантов кодировочных таблиц создает определенные трудности. К примеру, мы отправляем письмо, представленное в одной кодировке, а получатель при этом пытается прочесть его в другой. В результате на экране у него появляется непонятная абракадабра, что говорит о том, что получателю для прочтения письма требуется применить иную кодировочную таблицу.

Существует и другая проблема, которая заключается в том, что алфавиты некоторых языков содержат слишком много символов, которые не позволяют помещаться им в отведенные позиции с $128$ до $255$ однобайтовой кодировки.

Следующая проблема возникает тогда, когда в тексте используют несколько языков (например, русский, английский и немецкий). Нельзя же использовать обе таблицы сразу.

Для решения этих проблем в начале $90$-х годов прошлого столетия был разработан новый стандарт кодирования символов, который назвали Unicode. С помощью этого стандарта стало возможным использование в одном тексте любых языков и символов.

Данный стандарт для кодирования символов предоставляет $31$ бит, что составляет $4$ байта за минусом $1$ бита. Количество возможных комбинаций при использовании данной кодировочной таблицы очень велико: $231 = 2 \ 147 \ 483 \ 684$ (т.е. более $2$ млрд.). Это возможно стало в связи с тем, что Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и другие специальные символы. И все-таки информационная емкость $31$-битового Unicode слишком велика, И как следствие, наиболее часто используют именно сокращенную $16$-битовую версию ($216 = 65 \ 536$ значений), в которой представлены все современные алфавиты. В Unicode первые $128$ кодов совпадают с таблицей ASCII.

spravochnick.ru

Работа с текстом. Как определить кодировку файла

Давайте узнаем, что такое кодировка файла. Говоря проще, кодировкой считается набор байтовых символов, который соответствует буквенному алфавиту в определенном языке. Для каждого языка существует своя определенная последовательность таких знаков кодирования. Иногда возникает потребность определить кодировку. Рассмотрим это на примере текстового документа.

Что нужно

Набор определенных программных средств. Для начала достаточно приложений типа Word, KWrite, браузера Firefox и средства распознавания – enca.

Определить кодировку файла можно при помощи универсального редактора Microsoft Word. Прежде, его нужно проинсталлировать из пакета Office. Когда приложение будет установлено, и сможет открываться с помощью иконки в виде символа W на рабочем столе, переходим к следующему шагу.

Следующий этап распознавания

Через навигационную панель приложения по очереди откройте пункты «Файл» - «открыть». То же самое можно сделать, задействовав комбинацию клавиатуры Ctrl+O.

Затем в диалоговом окне выберите нужный каталог и, собственно, файл для чтения. Выделив его мышью, нажмите кнопку «открытие».

Когда у файла набор соответствий не CP1251, приложение пытается самостоятельно определить кодировку. Будет выведен список возможных соответствий. В предложенных наборах символов в правой части списка выберите одну из кодировок. Если выбор сделан правильно, в элементе «образец» отобразится распознанный текст.

Как определить кодировку посредством KWrite

Кроме препроцессора для обработки текста, Word, существуют и другие функциональные утилиты. Одна из них - KWrite (аналог для unix-систем). Чтобы вы не путались, распишу по пунктам задачу «определить кодировку документа в KWrite».

  1. Загрузка в приложение файла с расширением .txt.
  2. Перебор кодировок до тех пор, пока одна из них не окажется подходящей.
  3. Чтобы выполнить пункт 2, перейдите к опции tools в меню encoding.

Браузер Mozilla Firefox, цель та же – определить кодировку

Принцип примерно тот же, что и в утилитах для работы с текстом. Запускаем проинсталлированный браузер на выполнение, а если он не установлен – скачиваем инсталлятор с mozilla.org.

Затем в открытом окне программы нужно открыть текстовый документ через меню «Файл», подменю «Открыть файл». Если выбранный файл отобразится без искажений, и текст читаемый, определить кодировку не составит труда.

Для этого перейдите на «Вид» - «кодировка », там отображено несколько наборов символов, а тот из них, напротив которого стоит «галочка», и есть определенная браузером кодировка.

Если же текст не распознался правильно, выберите подраздел «дополнительно», поэкспериментируйте в нем с кодировками или выберите значение «авто».

Специализированное ПО – работаем с enca

Существует и ряд вспомогательных электронных средств, дающих возможность определить кодировку неформатированного текста.

Для тех, кто привык работать под unix, подойдет утилита enca. Ее можно установить при помощи сервиса «Диспетчер пакетов». Найдя доступную категорию пакетов, можно приступить к установке программного обеспечения.

Чтобы вывести листинг языков распознавания, выполните команду enca --list languages, используя терминал.

Если нужно определить кодировку текстового файла после ключа (g), введите его название, а после опции (L) примерно таким же образом введите язык распознавания:

enca -L russian -g /home/vic/temp/myfile.txt.

Подытожим сказанное о кодировке

Полагаю, что указанные выше утилиты станут для пользователя достаточным набором инструментов для раскодировки текстовых документов.

Пока, собственно, это всё о том, как распознать кодировку. Для стандартных целей, думаю, указанное программное обеспечение вполне подойдет. Есть и более специализированные методы определения, но их рассмотрение выходит за рамки этой статьи.

Для программы Microsoft Word источником распознавания может быть как простой текст, так и документ со сложным форматированием.

fb.ru

Кодер, декодер URL адреса или текст.

Url Encode / Decode.

Система кодирования URL (Uniform Resource Locator Encode/Decode) заключается в том, чтобы заменить «небезопасный» символ при передачи данных, так называемым «безопасным», где перед шестнадцатеричным эквивалентом ставится знак процента - ‘%’ (percent‐encoding).

Стандарт URL ограничивает набор используемых символов, можно использовать латинские буквы, цифры и несколько символов (см. ниже)

Символы, которые не кодируются, определены спецификацией RFC3986 (англ.), бывший стандарт RFC2396 (англ.)

Справка в Википедии: Юникод, кодировка ASCII, идентификатор ресурса URI

Для кодирования URL из национальных символов в символы ASCII, используют Punycode (см. ниже)

Например, введя в данную форму кодированный текст, состоящий до кодирования, из не английских символов:

%D0%9A%D0%9E%D0%94

Получим после декодирования, следующий нормально читаемый текст:

"КОД"

URL Декодировщик / Кодировщик.

URL Декодировщик / Кодировщик.

Для работы декодера / кодера, В Вашем браузере должен быть разрешен JavaScript.

Лицензия URL декодера: Creative Commons Attribution-ShareAlike 2.0 License. Этот инструмент предоставляется без каких-либо гарантий.

Рекомендованные правила для кодирования

Не резервированные

Не кодируются:

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9 - _ . ~

Резервированные

Кодируются

! * ' ( ) ; : @ & = + $ , / ? % # [ ]

Дополнительные ресурсы декодирования и кодирования

Декодер и разбор URL:

  • trueurl.net (на сайте можно также проверить URL на спам)
  • pressbin.com - URL-encode и URL-decode (используются функции PHP и JavaScript)
  • webtoolhub.com - Кодирование URL и декодирование URL. На сайте, имеются множество и других полезных сервисов (более 60): HTML Encoder Decoder, HTML To Text Converter, HTML Encrypter, URL Deobfuscator, URL Expander (раскодировщик коротких URL),..., англ.)

Другие конвертеры:

opinionatedgeek.com - Декодировщик Base 64 Encoder в режиме онлайн. Объем до 10мб opinionatedgeek.com - Определение маскированного IP адреса (маскировку IP, часто используют спамеры). Кодирование или декодирование IP

coderstoolbox.net - Строковый конвертер: Base64, XML, URL, ECMAScript, набор символов. В кодировке: US-ASCII, ISO-8859-1, UTF-8, а также другие бесплатные онлайн-инструменты: конвертер времени (Unix, ISO 8601, RFC 2822), сетевой конвертер, XPath...

freeformatter.com - Бесплатные онлайн инструментов для разработчиков. Инструменты: форматирование и проверка кода (JSON, HTML, XML, SQL), кодеры и декодеры (URL, Base 64)...

Расширение Flagfox подключается к сервису разбора URL - urlparser.com. Переход к сервису, осуществляется путем нажатии правой кнопкой мышки в адресной строке по флагу и выбор в меню - Парсер URL

Punycode.

Для кодирования URL из национальных символов в символы ASCII, воспользуйтесь сервисом: "Punycode конвертер" на сайте - wwhois.ru

серфок.рф

, превратится после Punycode конвертера в:

xn--e1aklhdu.xn--p1ai

, что является правильной записью для URL.

Примечание. Если Вы будете отправлять URL, содержащий символы национальной кодировки, в различные веб-сервисы: каталоги, веб-формы, веб-анализаторы и т.д, то используйте Punycode конвертер.

Возможно Вам будут интересны следующие статьи:

serfock.ru



О сайте

Онлайн-журнал "Автобайки" - первое на постсоветском пространстве издание, призванное осветить проблемы радовых автолюбителей с привлечение экспертов в области автомобилестроения, автоюристов, автомехаников. Вопросы и пожелания о работе сайта принимаются по адресу: Онлайн-журнал "Автобайки"