Почему с компьютерами проще говорить по-английски?
Дело в кодировках.
Компьютеру живётся просто - он работает с числами. Грузит числа, обрабатывает числа, считает числа, спит и во сне видит числа.
Это мы, странные органические создания, придумали такую неэффективную вещь, как письменность. Ну что ж с нами делать, раз выдумали - надо с этим работать как-то.
АСКИ
А раз есть только числа, надо текст перевести в числа. Это и есть кодирование. Придумали таблицу и давай всё по ней переводить туда сюда. Каждому символу дали число, каждой точке, запятой, пробелу и кавычке, не говоря уже о буквах.
Было весело - таблица на 256 символов, полно места! Если посчитать, то куда уж больше? На буквы хватает - большие и маленькие, да и на знаки препинания, а ещё можно забубенить туда каких-нибудь штук чтобы орнаменты рисовать на радость пользователям командной строки! (см. символы 176-223) Программисты своего не упустили и в самом начале использовали первые символы вместо команд. (см. символы 0-32)
И назвали это дело ASCII. Ура!
Символы ASCII с 0 по 127(стандарт).
Символы ASCII с 128 по 256 (расширенная).
Если интересно, попробуйте на досуге сделать вот что:
- зажать правый альт (Alt gr, серый альт);
- последовательно нажать несколько цифр на дополнительной клавиатуре (это справа цифры, которые как на калькуляторе расположены);
- отпустить правый альт;
Интернациональный облом.
Но вот облом. Хватило-то с лихвой, да вот только на английский алфавит. Вот тогда и началось не понять что. Все, кому не лень, выдумывали свои новые таблицы вместо этой. Сначала просто заменяли графические символы за 127 на русские (или другие) буквы, потом придумывали вообще другие варианты в зависимости от нужд и разговорного языка. Т.е. у арабов свои, у украинцев - свои и т.д. Про японцев и китайцев молчу.
Однако как только вставал вопрос о двух языках сразу - появлялись трения. На моей памяти в одну ASCII таблицу пытались впихнуть русские и латышские символы вместе. В общем международный диалог не ладился.
Стоит заметить, что я не видел кодировки без английских букв - т.е. русский и английский, испанский и английский, в таком духе.
В результате имеем что имеем.
Список популярных кодировок: (смело пролистывайте, ничего интересного)
-----------------------------------------------------------------------------
- ISO 646
- EBCDIC
- ISO 8859:
- ISO 8859-1 Western Europe
- ISO 8859-2 Western and Central Europe
- ISO 8859-3 Western Europe and South European ( Turkish, Maltese plus Esperanto)
- ISO 8859-4 Western Europe and Baltic countries ( Lithuania, Estonia and Lapp )
- ISO 8859-5 Cyrillic alphabet
- ISO 8859-6 Arabic
- ISO 8859-7 Greek
- ISO 8859-8 Hebrew
- ISO 8859-9 Western Europe with amended Turkish character set
- ISO 8859-10 Western Europe with rationalised character set for Nordic languages, including complete Icelandic set.
- ISO 8859-11 Thai
- ISO 8859-13 Baltic languages plus Polish
- ISO 8859-14 Celtic languages ( Irish Gaelic, Scottish, Welsh )
- ISO 8859-15 Added the Euro sign and other rationalisations to ISO 8859-1
- ISO 8859-16 Central European languages ( Polish, Czech, Slovenian, Slovak, Hungarian, Albanian, Romanian, German, Italian )
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
- MS-Windows character sets:
- Windows-1250 for Central European languages that use Latin script, (Polish, Czech, Slovak, Hungarian, Slovene, Serbian, Croatian, Romanian and Albanian)
- Windows-1251 for Cyrillic alphabets
- Windows-1252 for Western languages
- Windows-1253 for Greek
- Windows-1254 for Turkish
- Windows-1255 for Hebrew
- Windows-1256 for Arabic
- Windows-1257 for Baltic languages
- Windows-1258 for Vietnamese
- Mac OS Roman
- KOI8-R, KOI8-U, KOI7
- MIK
- Cork or T1
- ISCII
- TSCII
- VISCII
- JIS X 0208 is a widely deployed standard for Japanese character encoding that has several encoding forms.
- Shift_JIS (Microsoft Code page 932 is a dialect of Shift_JIS)
- EUC-JP
- ISO-2022-JP
- JIS X 0213 is an extended version of JIS X 0208.
- Chinese Guobiao
- GB2312
- GBK (Microsoft Code page 936)
- GB18030
- Taiwan Big5 (a more famous variant is Microsoft Code page 950)
- Hong Kong HKSCS
- KS X 1001 is a Korean double-byte character encoding standard
- Unicode (and subsets thereof, such as the 16-bit 'Basic Multilingual Plane'). See UTF-8
- ANSEL or ISO/IEC 6937
Все существующие кодировки: http://www.iana.org/assignments/character-sets
Думаем обо всех.
И только спустя какое-то время и 100 кодировок появилась идея всё свести в одну. Сделали несколько вариантов, но распространение и признание получила (барабанная дробь!) UTF-8, он же Unicode. Грубо говоря уникод содержит символы из всех языков мира и нет разницы на каком языке мы пишем, можно использовать одну и ту же кодировку. Сейчас на неё переходят сайты в интернете и программисты при написании программ. Последние Linux дистрибутивы все на UTF-8. Windows её поддерживает (как же иначе!) но система всё равно живёт на англоязычной кодировке (посему иногда бывают вопросики в русских инсталляторах).
И раз уж вы дочитали до сюда...
А пользователям какое дело-то???
Напоровшись в следующий раз на страницу с "иероглифами" если вы полагаете, что она всё-таки должна быть на русском, поменяйте кодировку страницы.
В firefox: View - Character Encoding - ...
Для русского языка самые частые:
- KOI8-R
- CP1251 (Windows-1251)
Control Panel - Regional and Language Options - Advanced.
Там ставится язык, который будет использован для не-юникод программ (у меня стоит русский, что и вам советую) и список кодировок.
Хотя вряд ли вам это пригодится потому что самое распространенное включено и так, а указав что вы из России или Латвии - так и подавна.
В интернете в страницах часто прописывают какая кодировка стоит и броузер сам всё делает, так что мои советы для редких исключений.
Пользуйтесь юникодом, нам и без кодировок понимания не хватает. :)
2 комментариев
Хоть проблема и редкая, но у меня следующая неприятность, которую вряд ли можно устранить. Вобщем в regional settings стоит русский язык для не-юникодов. Однако tildes rakstveidis не может мне правильно исправить мой текст на латышском, тк программа видимо не юникод и требует в региональних настройках латышский язык. Если бы я грамотно писал по латышский, я бы даже наверно не задал этот вопрос, несмотря на то, что этот редактор почти ничего не исправляет.:) Но вот как есть...
П.С. может в замен этому можно использовать ворд с его словарями, но где эти словари брать и как их устанавливать узнать руки не доходили, ибо чтобы он мне русский язык проверял, пришлось руссификатор ставить, что меня, однако, не очень радует. (office 2007)
Tilde заменяет функции, которые уже есть в ворде. Почему-то часто только ради них и ставят. По-моему глупо.
Так вот... Есть MUI и есть Proofing Tools.
MUI это Multilanguage User Interface для Windows. Хочется "панель управления" вместо "control panel" и "veidnis" вместо "wizard" - делаем.
Proofing Tools это проверка грамматики для офиса от Microsoft. Они весят немного и доступны для разных языков. Я только их и использую для проверки, когда большинство использует Tilde.
Как-то так.
Отправить комментарий