Кодирование текстовой информации — справочник студента

Информатика, 10 класс. Урок № 14.

  • Тема — Кодирование текстовой информации
  • Цели и задачи урока:
  • — познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;
  • — познакомиться со способом определения информационного объема текстового сообщения;
  • — познакомиться с алгоритмом Хаффмана.

Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!

Оценим за полчаса!
  1. Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:
  2. N=2i, где
  3. N — это количество вариантов,
  4. i — это количество бит, не обходимых для кодирования.
  5. Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.
  • N=2i, где N — кол-во возможных вариантов
  • i — кол-во бит, потребуемых для кодирования
  • Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

Кодирование текстовой информации - Справочник студента

И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

Кодирование текстовой информации - Справочник студента

Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

Кодирование текстовой информации - Справочник студента

Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы. Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

Кодирование текстовой информации - Справочник студента

Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков.

На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!
Читайте также:  Модели организационных изменений - справочник студента

Оценим за полчаса!

Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

Кодирование текстовой информации - Справочник студента

АЛГОРИТМ ХАФФМАНА

Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

  1. Пусть нам дано сообщение aaabcbeeffaabfffedbac.
  2. Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.
  3. Шаг 1.
  4. Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:
  • У вас должно получиться:
  • Шаг 2.
  • Расположите буквы в порядке возрастания их частоты.
  • Шаг 3.
  • Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.
  • Символы d и c превращаются в ветку дерева:
  • Шаг 4.
  • Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.
  • Итак, сортируем таблицу:
  • Шаг 5.
  • Объединяем символ e и символ cd в ветку дерева:
  • d
  • C
  • Шаг 6.
  • Сортируем:
  • Шаг 7.
  • Шаг 8.
  • Сортируем:
  • Шаг 9.
  • Шаг 10.
  • Сортируем:
  • Шаг 11.
  • Шаг 12.

Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

  1. Шаг 13.
  2. Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.
  3. Тогда код для каждой буквы будет:
  4. Задание №1
  5. Закодируйте ASCII кодом слово MOSCOW.
  6. Решение:
  7. Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:
M O S C O W
1001101 1001111 1010011 1000011 1001111 1110111
  • ОТВЕТ: 100110110011111010011100001110011111110111
  • Задание №2
  • Используя табличный код Windows1251, закодируйте слово КОМПЬЮТЕР.
  • Решение:
К О М П Ь Ю Т Е Р
234 206 204 239 252 254 242 197 208
  1. Ответ: 234206204239252254242197208
  2. Задание №3
  3. Используя алгоритма Хаффмана, закодируйте сообщение: Россия
  4. Решение:
  5. Давайте все левые ветви обозначим «1», а правые – «0»
  6. Таким образом: С — 0, Р — 101, О — 100, И — 111, Я — 110
  7. ОТВЕТ: 10110000111110

Источник: https://resh.edu.ru/subject/lesson/5225/conspect/

Урок 17§14. Кодирование текстовой информации

Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 10 классы | Планирование уроков на учебный год (ФГОС) | Кодирование текстовой информации

Кодирование текстовой информации - Справочник студента

14.1. Кодировка ASCII и её расширения
Кодирование текстовой информации 14.2. Стандарт Unicode

Кодирование текстовой информации - Справочник студента

14.1. Кодировка ASCII и её расширения

Основой для компьютерных стандартов кодирования символов послужил код ASCII (American Standard Code for Information Interchange) — американский стандартный код для обмена информацией, разработанный в 1960-х годах в США и применявшийся для любых, в том числе и некомпьютерных, способов передачи информации (телеграф, факсимильная связь и т. д.).

Этот код 7-битовый: общее количество символов составляет 27 = 128, из них первые 32 символа — управляющие, а остальные — изображаемые, т. е. имеющие графическое изображение. К изображаемым символам в ASCII относятся буквы латинского алфавита (прописные и строчные), цифры, знаки препинания и арифметических операций, скобки и некоторые специальные символы.

Кодировка ASCII приведена в табл. 3.8.

Таблица 3.8

Кодировка ASCII

Кодирование текстовой информации - Справочник студента

Хотя для кодирования символов в ASCII достаточно 7 битов, в памяти компьютера под каждый символ отводится ровно 1 байт (8 битов), при этом код символа помещается в младшие биты, а в старший бит заносится 0.

Например, 01000001 — код прописной латинской буквы «А»; с помощью шестнадцатеричных цифр его можно записать как 41.

Стандарт ASCII рассчитан на передачу только английского текста. Со временем возникла необходимость кодирования и неанглийских букв. Во многих странах для этого стали разрабатывать расширения ASCII -кодировки, в которых применялись однобайтовые коды символов.

При этом первые 128 символов кодовой таблицы совпадали с кодировкой ASCII, а остальные (со 128-го по 255-й) использовались для кодирования букв национального алфавита, символов национальной валюты и т. п.

Из-за несогласованности этих разработок для многих языков было создано несколько вариантов кодовых таблиц (например, для русского языка их было создано около десятка!).

Впоследствии использование кодовых таблиц было несколько упорядочено: каждой кодовой таблице было присвоено особое название и номер.

Для русского языка наиболее распространёнными стали однобайтовые кодовые таблицы CP-866, Windows-1251 (табл. 3.9) и КОИ-8 (табл. 3.10).

В них первые 128 символов совпадают с ASCII-кодировкой, а русские буквы размещены во второй части таблицы. Обратите внимание на то, что коды русских букв в этих кодировках различны.

Таблица 3.9

Кодировка Windows-1251

Кодирование текстовой информации - Справочник студента

Таблица 3.10

Кодировка КОИ-8

Кодирование текстовой информации - Справочник студента

Мы выяснили, что при нажатии на алфавитно-цифровую клавишу в компьютер посылается некоторая цепочка нулей и единиц. В текстовых файлах хранятся не изображения символов, а их коды.

При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст, причём изображения эти могут быть разнообразны и достаточно причудливы. Внешний вид выводимых на экран символов кодируется и хранится в специальных шрифтовых файлах.

Современные текстовые процессоры умеют внедрять шрифты в файл. В этом случае файл содержит не только коды символов, но и описание используемых в этом документе шрифтов.

Кроме того, файлы, создаваемые с помощью текстовых процессоров, включают в себя и такие данные о форматировании текста, как его размер, начертание, размеры полей, отступов, межстрочных интервалов и другую дополнительную информацию.

Cкачать материалы урока

Источник: https://xn—-7sbbfb7a7aej.xn--p1ai/informatika_10_fgos/informatika_materialy_zanytii_10_17_fgos_02.html

Кодирование текстовой информации

Кодирование текстовой информации - Справочник студента

Кодирование текстовой информации

Если у вас имеются какие-либо непонимания с такой темой, как «Кодирование текстовой информации», то записывайтесь ко мне на индивидуальный урок по информатике. На репетиторском уроке мы с вами детально разберем абсолютно все возникшие у вас вопросы и прорешаем колоссальное количество тематических упражнений.

Общие сведения о текстовой информации

На текущий момент времени большая часть всей информации, находящейся в сети Интернет, представлена в виде текста на различных национальных языках. Персональные компьютеры еще со времен 60-х годов научились правильно распознавать, обрабатывать, хранить и передавать текстовую информацию.

Сложно себе представить современный и актуальный вебсайт, который не содержит ни одного символа. Ежедневно глобальная паутина пополняется десятками миллионов текстовых публикаций различного объема.

Все поисковые системы в основном «заточены» на релевантный поиск веб-страниц в соответствии с текстовым запросом пользователей.

Не стоит забывать о том, что процессор любого компьютера, любой марки, любого бренда способен обрабатывать информацию, выраженную комбинацией только из 0 и 1. Следовательно, текстовая информация также должна быть преобразована в двоичный набор кодов. Значит, существует некий алгоритм, позволяющий кодировать текстовую информацию в вид, понятный процессору компьютера.

Свойства текстовой информации

Давайте выделим ключевые свойства, которыми должны обладать текстовые материалы:

  • Ценность
  • Новизна
  • Полезность
  • Адекватность
  • Истинность

Что можно понимать под ценностью текстовой информации? Ценность информации – пожалуй, одно из основных свойств любой информации. Если информация для пользователя не является ценной, аксиологически значимой, то она для него не является информативной. Разные читали по-разному воспринимают ценность информации.

Для одного – новая, самая свежая информация, для другого – полная, детально разобранная информация о каком-либо объекте или событии. Лично для меня ценна та текстовая информация, которая написана понятным мне языком и глубоко освещает проблематику, на которую она ориентирована. Думаю, что всем знаком такой ресурс, как Википедия.

Читайте также:  Правило ленца - справочник студента

На мой взгляд, авторы данного популярнейшего ресурса очень структурированно и полно описывают события в текстовых публикациях.

Что можно понимать под новизной информации? Думаю, здесь всем понятно, что означает данное свойство из самого названия.

Любой текстовый материал должен содержать в своем контексте какую-то новизну, описание проблемы, которую раньше никто еще пристально не рассматривал.

Как правило, новая текстовая информация является актуальной, но далеко не факт, что она является полной или достоверной, истинной.

Что можно понимать под полезностью информации? Свойство полезности и ценности очень сильно коррелируют между собой. Как правило ценная текстовая информация одновременно является и полезной. Для меня полезной является та информация, которая помогает решить спонтанно возникшую у меня проблему.

Данная информация может быть неновой, неполной, недостоверной и даже неактуальной. Например, если вам требуется написать реферат на тему «Что такое текстовая информация?», и вы, прочитав данный материал, какие-то мысли позаимствовали отсюда, это означает, что данная статья для вас является полезной.

Хотя с другой стороны, это информация не новая и давно хорошо изученная различными экспертами.

Что можно понимать под адекватностью информацию? Под адекватностью следует понимать то, насколько текстовое описание объекта или события соответствует в реальности описываемому объекту или событию.

Если, например, в какой-либо статье говорится про задачи по программированию, а в решении приводятся стереометрические математические построения, то данная информация не является адекватной, так как упражнения по программированию в первую очередь связаны с написание программного кода. Информация в такой статье не будет являться адекватной.

Что можно понимать под истинностью информации? Под истинностью текстовой информации следует понимать то, насколько описываемые характеристики какого-либо объекта соответствуют его реальным характеристикам.

Например, если мы будем утверждать следующее: для того, чтобы получить на экзамене ГИА или ЕГЭ по информатике 100 баллов, нам не нужно уметь программировать. Данная информация не является истинной. И не умея программировать, не удастся решить все упражнения на экзамене.

С другой стороны, нельзя эту информацию считать неадекватной, но, не зная ни одного языка программирования, какое-то количество баллов все-таки можно получить. Или еще пример, если мы скажем, что текущий президент Российской Федерации Борис Николаевич Ельцин, это тоже ложная информация.

Да, он был когда-то президентом, но в данный момент таковым не является. Это уже неактуальная информация, она устарела.

В данном примере наш тезис про президента является:

  • Не ценным, так как информация устаревшая и недостоверная.
  • Новым для нас, так как раньше нам об этом никто не писал.
  • Не полезным, так как никакого профита мы не получили, прочитав данное утверждение.
  • Адекватным, так как Ельцин Б.Н. когда-то был президентом.
  • Ложным, так как в настоящий момент времени президентом РФ является другой человек.

Что такое кодировочная таблица

Для кодирования текстовой информации в двоичные коды, понятные процессору персонального компьютера, необходимо прибегать к специальным кодировочным таблицам.

Давайте представим, что мы напечатали какое-то предложение в текстовом редакторе, например, «Подготовка к ГИА и ЕГЭ» и решили сохранить документ на жесткий диск нашего ПК. Информация любого формата перед тем, как записаться на жесткий диск проходит этап кодирования.

В результате наше предложение «Подготовка к ГИА и ЕГЭ» после кодирования преобразуется в двоичный набор, состоящий из цепочек 0 и 1. Но каков алгоритм этого кодирования? Все очень просто!

Существует специальная таблица, в которой представлены абсолютно все символы компьютерного алфавита, и каждому такому символу соответствует некий, строго заданный двоичный код. Для разных типов электронно-вычислительных машин применяются различные кодировки.

Самой распространенной кодировочной таблицей в начале 2000-го года являлась таблица кодировки ASCII. ASCII – American Standard Code for Information Interchange, или американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов.

Первая половина этой таблицы (это 128 двоичных кодов) является стандартной, так как в нее входит буквы латинского алфавита, цифры, знаки препинания, скобки, а также так называемые непечатаемые символы.

Вторая половина (это 128 двоичных кодов), как правило, содержит символы национального алфавита.

Кстати, в настоящее время существует пять различных кодировочных таблиц для русских букв:

С одной стороны, кажется, что удобно иметь столько вариантов кодирования текстовой информации, записанной на русском языке, а с другой – имеется большая проблема с совместимостью и соответствию двоичных кодов в разных кодировочных таблицах.

Ассоциация символа и кода символа

Давайте более детально поговорим об анатомии кодировочных таблиц и непосредственно о самом алгоритме кодирования текстовой информации. В качестве примера возьмем на рассмотрение кодировочную таблицу ASCII.

Как мы раньше поняли, первая половина этой таблицы является строго стандартной и не содержит кодов ни одного русского символа. Рассмотрим вторую половину таблицы ASCII.

Сразу хочу заметить, что двоичных кодов для букв 'ё' и 'Ё' в таблице нет.

Вернемся к исследованию предложения «Подготовка к ГИА и ЕГЭ».

Как видно, данное предложение содержит достаточно много различных букв из русского алфавита, а также имеются повторяющиеся буквы, например, буквы 'о', 'а', 'к', 'Г' и др.

Сразу небольшая оговорка: одна и та же малая и большая буквы имеют различный двоичный код в таблице ASCII, то есть буквы 'а' и 'А' будут кодироваться различным набором из 0 и 1.

Для простоты можете представить себе таблицу ASCII как таблицу, состоящую из двух колонок: в первой колонке указывается физический символ, а во второй колонке указывается двоичный код, соответствующий символу из первой колонки. Я лишь приведу небольшой фрагмент второй половины таблицы ASCII:

Символ русского алфавита Двоичный код символа
'А' 11000000
'Б' 11000001
'В' 11000010
'Г' 11000011
'Я' 11011111
'а' 11100000
'я' 11111111

Когда процессор ПК встречает в тексте символ 'В', он его заменяет на двоичный восьмиразрядный код 11000010, а если букву 'а', то на 111000.

Сходу возникает вопрос: а почему отводится восемь позиций на двоичный код символа при кодировании текстовой информации? Потому что для хранения одного символа будет задействован 1 байт информации или 8 бит. Таким образом устроена кодировочная таблица ASCII.

Отсюда вытекает умозаключение, что максимальное количество закодированных символов в таблице ASCII не может превышать 256, так как 28 = 256. Существует кодировочная таблица, называемая Unicode, вот она при кодировании текстовой информации преобразует символы в шестнадцатипозиционный двоичный код.

Это связано с тем, что для хранения одного символа задействуется 2 байта памяти или 16 бит информации. Следовательно, таблица Unicode может кодировать до 216 = 65536 различных символов.

Еще одной важной характеристикой кодировочных таблиц является то, что символы в ней упорядочены в соответствии с национальным алфавитом.

В русском алфавите за буквой 'а', следует буква 'б', затем буква 'в' и так далее.

Также можно заметить, что в строках кодировочных таблиц сначала следуют заглавные буквы национального алфавита, а затем строчные, а, следовательно, и соответствующие двоичные коды заглавных букв будут меньше соответствующих кодов строчных букв.

Давайте произведем кодирование текстовой информации, а конкретно предложения «Подготовка к ГИА и ЕГЭ». Для этого построим таблицу, в которой каждому символу русского алфавита сопоставим двоичный код из кодировочной таблицы ASCII. Разделители между словами, то есть знаки пробела, также закодируем.

П о д г о т о в к а
11001111 11101110 11100100 11100011 11101110 11110010 11101110 11100010 11101010 11100000
к Г И А и Е Г Э
00100000 11101010 00100000 11000011 11001000 11000000 00100000 11101000 00100000 11000101 11000011 11011101
  • То есть перед тем, как записать текстовое предложение «Подготовка к ГИА и ЕГЭ» на жесткий диск, компьютер произведет кодирование текстовой информации и получит следующий бинарный код:
  • 11001111111011101110010011100011111011101111001011101110111000101110101011100000001000001110101000100000110000111100100011000000001000001110100000100000110001011100001111011101
  • А вот подобные цепочки, наборы из 0 и 1 прекрасно распознаются процессором и он максимально оперативно произведет всю необходимую обработку над ними.

Если у вас остались какие-либо вопросы, связанные с кодирование текстовой информации, то записывайтесь ко мне на индивидуальный урок. На моих уроках мы с вами еще более детально погрузимся в область кодирования текстовой информации и рассмотрим внушительное количество ценных, полезных и актуальных примеров.

Источник: http://www.videoege.ru/informatika/kodirovanie-tekstovoy-informacii

Кодирование информации 3 (стр. 1 из 2)

Сожержание

I. История кодирования информации………………………………..3

II. Кодирование информации…………………………………………4

III. Кодирование текстовой информации…………………………….4

IV. Виды таблиц кодировок……………………………………………6

V. Расчет количества текстовой информации………………………14

Список используемой литературы…………………………………..16

  • I. История кодирования информации
  • Человечество использует шифрование (кодировку) текста с того самого момента, когда появилась первая секретная информация. Перед вами несколько приёмов кодирования текста, которые были изобретены на различных этапах развития человеческой мысли:
  • — криптография – это тайнопись, система изменения письма с целью сделать текст непонятным для непосвященных лиц;

— азбука Морзе или неравномерный телеграфный код, в котором каждая буква или знак представлены своей комбинацией коротких элементарных посылок электрического тока (точек) и элементарных посылок утроенной продолжительности (тире);

сурдожесты – язык жестов, используемый людьми с нарушениями слуха.

Один из самых первых известных методов шифрования носит имя римского императора Юлия Цезаря (I век до н.э.) .

Этот метод основан на замене каждой буквы шифруемого текста, на другую, путем смещения в алфавите от исходной буквы на фиксированное количество символов, причем алфавит читается по кругу, то есть после буквы я рассматривается а.

Так слово «байт» при смещении на два символа вправо кодируется словом «гвлф». Обратный процесс расшифровки данного слова – необходимо заменять каждую зашифрованную букву, на вторую слева от неё.

II. Кодирование информации

Код – это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий.

Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

  1. Обычно каждый образ при кодировании (иногда говорят – шифровке) представлении отдельным знаком.
  2. Знак — это элемент конечного множества отличных друг от друга элементов.
  3. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

На компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей).

Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми.

Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.

III. Кодирование текстовой информации

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом.

Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества — письменность и арифметика — есть не что иное, как система кодирования речи и числовой информации.

Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации.

Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1).

Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц — машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы — это возможные события): К = 2I = 28 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Такое количество символов вполне достаточно для пред­ставления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт — наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Читайте также:  Основные виды умственных операций - справочник студента

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

  • IV. Виды таблиц кодировок
  • Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.
  • Для разных типов ЭВМ используются различные таблицы кодировки.
  • В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange — Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).
  • Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Первая половина таблицы кодов ASCII

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Источник: https://mirznanii.com/a/310544/kodirovanie-informatsii-3

Кодирование текстовой информации

Аппаратное (оптическое) разрешение

Аппаратное (оптическое) разрешение (Hardware/optical Resolution) непосредственно связано с плотностью размещения светочувствительных элементов в матрице сканера. Это — основной параметр сканера (точнее, его оптико-электронной системы). Обычно указывается разрешение по горизонтали и вертикали, например, 300×600 ppi.

Следует ориентироваться на меньшую величину, т. е. на горизонтальное разрешение.

Вертикальное разрешение, которое обычно вдвое больше горизонтального, получается в конечном счете интерполяцией (обработкой результатов непосредственного сканирования) и напрямую не связано с плотностью чувствительных элементов (это так называемое разрешение двойного шага).

Чтобы увеличить разрешение сканера, нужно уменьшить размер светочувствительного элемента. Но с уменьшением размера теряется чувствительность элемента к свету и, как следствие, ухудшается соотношение сигнал/шум. Таким образом, повышение разрешения — нетривиальная техническая задача.

Интерполяционное разрешение

Интерполяционное разрешение (Interpolated Resolution) — разрешение изображения, полученного в результате обработки (интерполяции) отсканированного оригинала. Этот искусственный прием повышения разрешения обычно не приводит к увеличению качества изображения.

Представьте себе, что реально отсканированные пикселы изображения раздвинуты, а в образовавшиеся промежутки вставлены «вычисленные» пикселы, похожие в каком-то смысле на своих соседей. Результат такой интерполяции зависит от ее алгоритма, но не от сканера.

Однако эту операцию можно выполнить средствами графического редактора, например, Photoshop, причем даже лучше, чем собственным программным обеспечением сканера.

Интерполяционное разрешение, как правило, в несколько раз больше аппаратного, но практически это ничего не означает, хотя может ввести в заблуждение покупателя. Значимым параметром является именно аппаратное (оптическое) разрешение.

В техническом паспорте сканера иногда указывается просто разрешение. В этом случае имеется в виду аппаратное (оптическое) разрешение. Нередко указываются и аппаратное, и интерполяционное разрешение, например, 600х 1200 (9600) ppi. Здесь 600 — аппаратное разрешение, а 9600 — интерполяционное.

Кодирование текстовой информации

Текстовую информацию кодируют двоичным кодом через обозначение каждого символа алфавита определенным целым числом. С помощью восьми двоичных разрядов возможно закодировать 256 различных символов. Данного количества символов достаточно для выражения всех символов английского и русского алфавитов.

  • Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).
  • Для кодирования одного символа требуется один байт информации.
  • Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (28 = 256)
  • Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

Для английского языка, который является неофициальным международным средством общения, эти трудности были решены. Институт стандартизации США выработал и ввел в обращение систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).

  1. Для кодировки русского алфавита были разработаны несколько вариантов кодировок:
  2. 1) Windows-1251 – введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение;
  3. 2) КОИ-8 (Код Обмена Информацией, восьмизначный) – другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет;

3) ISO (International Standard Organization – Международный институт стандартизации) – международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.

В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO).

Ограниченный набор кодов (256) создает трудности для разработчиков единой системы кодирования текстовой информации.

Вследствие этого было предложено кодировать символы не 8-разрядными двоичными числами, а числами с большим разрядом, что вызвало расширение диапазона возможных значений кодов. Система 16-разрядного кодирования символов называется универсальной – UNICODE.

Шестнадцать разрядов позволяет обеспечить уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков.

Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки очень долго не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, так как в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше. В конце 1990-х гг. технические средства достигли необходимого уровня, начался постепенный перевод документов и программных средств на систему кодирования UNICODE.

Вся информация, которую обрабатывает компьютер должна быть представлена двоичным кодом с помощью двух цифр 0 и 1. Эти два символа принято называть двоичными цифрами или битами. С помощью двух цифр 0 и 1 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организованно два важных процесса: кодирование и декодирование.

Кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код.

  • Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.
  • С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента:
  • 0 – отсутствие электрического сигнала;
  • 1 – наличие электрического сигнала.

Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных.

Вам приходится постоянно сталкиваться с устройством, которое может находится только в двух устойчивых состояниях: включено/выключено. Конечно же, это хорошо знакомый всем выключатель.

А вот придумать выключатель, который мог бы устойчиво и быстро переключаться в любое из 10 состояний, оказалось невозможным. В результате после ряда неудачных попыток разработчики пришли к выводу о невозможности построения компьютера на основе десятичной системы счисления.

И в основу представления чисел в компьютере была положена именно двоичная система счисления.

  1. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.
  2. 34. Аппаратные средства получения информационной модели изображения объекта
  3. Эволюция аппаратных средств получения информационной модели изображения объекта
  4. Пантелеграф Казелли

Системы для сканирования изображения являются неотъемлемой частью таких устройств, как фототелеграф, телефакс, телекамера. Они существуют уже более ста лет.

В 1856 году итальянский физик Казелли (Giovanni Caselli, 1815 — 1891) создал прибор для передачи изображений, названный пантелеграфом. В этом приборе игла сканировала изображение, нарисованное токопроводящими чернилами. Приемник действовал по аналогичному принципу.

Игла перемещалась по листу, покрытому крахмальным клеем с примесью йодистого калия. Когда через иголку проходил ток, крахмал окрашивался в синий цвет.

Похожий принцип действия прибора описан Александром Байном (Alexander Bain, 1811(10) — 1877) в 1840-х годах, но про пантелеграф точно известно, что он был воплощен в металле, например, в России работал на линии Москва — Петербург уже 1862 году.

С современной точки зрения это изобретение следует отнести к процессу фиксации электронного изображения на бумаге. Можно сказать, что 1856 год — это дата появления графического принтера с электрохимическим способом фиксации изображения.

Следует отметить, что здесь мы видим одновременно и фиксацию, и визуализацию изображения. В дальнейшем, в электронной фотографии, эти два процесса очень часто будут разделены. В частности, в телевидении способы визуализации будут изобретены существенно раньше, чем способы сохранения изображения.

  • К современным аппаратным средствам получения первичной модели изображения объекта можно отнести оборудование, позволяющее перекодировать информацию об объекте в цифровую форму с помощью технологических процессов:
  • Сканирование, цифровое фотографирование, создание изображения
  • Сканирование
  • Сканирование — процесс поэлементного считывания аналоговой информации с оригинала и/или запись оцифрованного изображения в электронном виде по заданной траектории.
  • Сканирование — аналого-цифровое преобразование плоского изображения в цифровую растровую форму с помощью сканера.

Сканер (англ. scanner) — устройство, которое, анализируя какой-либо объект (обычно изображение, текст), создаёт цифровую копию изображения объекта. Процесс получения этой копии называется сканированием.

  1. Цифровое фотографирование
  2. Цифровая фотография — фотография, результатом которой является изображение в виде массива цифровых данных — файла, а в качестве светочувствительного материала применяется электронное устройство — матрица.
  3. Создание изображения

Графический планшет (дигитайзер, диджитайзер от англ. digitizer) — это устройство для ввода рисунков от руки непосредственно в компьютер. Состоит из пера и плоского планшета, чувствительного к нажатию или близости пера. Также может прилагаться специальная мышь.

  • Основными областями применения являются:
  • создание и редактирование изображений;
  • мультипликация;
  • оцифровывание географических карт для работы с географическими информационными системами;
  • инженерное проектирование;
  • научная визуализация.
  • Графические планшеты применяются как для создания изображений на компьютере способом, максимально приближенным к тому, как создаются изображения на бумаге, так и для обычной работы с интерфейсами.

Статьи к прочтению:

Источник: http://csaa.ru/kodirovanie-tekstovoj-informacii/

Конспект урока по информатике на тему "Кодирование текстовой информации"

бюджетное профессиональное образовательное учреждение

Вологодской области «Череповецкий металлургический колледж

имени академика И.П. Бардина»

  • Для всех специальностей
  • КОНСПЕКТ
  • урока
  • по дисциплине «Информатика и ИКТ»
  • Тема «Кодирование текстовой информации»
  • Для студентов 1 курса

Составитель: Лебедева Т.В.,

  1. преподаватель колледжа
  2. Череповец, 2016
  3. Дисциплина: Информатика и ИКТ
  4. Курс: I
  5. Тема урока: «Кодирование текстовой информации»
  • Познакомить обучающихся со способами кодирования текстовой информации в компьютере.
  • Научить определять числовые коды символов, вводить символы с помощью числовых кодов.
  • Рассмотреть примеры решения задач.
  • Способствовать развитию познавательных интересов обучающихся.
  • Воспитывать выдержку и терпение в работе, чувства товарищества и взаимопонимания.

Урок изучения нового материала.

  • Общекультурная компетенция
  • умение проводить анализ и структурирование информации;
  • владеть навыками работы с текстовой информацией.
  • Информационная компетенция
    • анализ информации с целью выделения общих черт, закономерностей; знакомство с программным обеспечением;
    • анализ предметной области, умение определять числовые коды символов, вводить символы с помощью числовых кодов.
  • Коммуникативная компетенция

  • участие в общем обсуждении, умение аргументировать свою точку зрения, выслушивать собеседника.
  1. Организационный момент в начале урока.

  2. Основная часть.

  1. Актуализация ранее изученного материала.

  2. Изучение нового материала.

  3. Закрепление изученного материала. Решение задач.

  4. Практическая работа.

  5. Домашнее задание.

  1. Итог урока. Организационный момент в конце урока.

  • Интерактивная доска, ПК, мультимедийная презентация, рабочие места (персональный компьютер), карточки с заданием.
  • фронтальная, индивидуальная, парная формы обучения.
  • проблемный метод, инструктаж, упражнения, практические задания, наглядный метод обучения.
  • устный фронтальный опрос, письменный контроль, индивидуальный практический контроль, взаимоконтроль, самоконтроль.
  • ХОД УРОКА
  1. Организационный момент в начале урока.

  1. Сегодня на уроке мы начинаем изучать новую тему, в которой вы узнаете, каким образом представляются различные тексты в памяти компьютера, какие возможности предоставляют различные текстовые редакторы при редактировании и форматировании текстового документа. А тема урока следующая:
  2. «202 238 228 232 240 238 226 224 237 232 229 032 242 229 234 241 242 238
  3. 226 238 233 032 232 237 244 238 240 236 224 246 232 232».

Кто-нибудь догадался, что это за тема урока, на что это похоже? На самом деле тема нашего урока «Кодирование текстовой информации».

А почему именно так необычно выглядит тема нашего урока, может быть и слово «бит» представляется следующим образом – 225 232 242, а слово «текст» – 242 229 234 241 242.

Почему это именно так? Наша задача это сегодня выяснить, т.е. каким образом происходит кодирование текстовой информации в компьютере. Вы согласны выяснить, в чем тут проблема.

Если да, то в тетрадях запишем число и тему урока «Кодирование текстовой информации».

Цели урока (формулируют студенты).

План урока:

  1. Вопросы для повторения

  2. Изучение нового материала.

    1. Двоичное кодирование текстовой информации.

    2. Доклад студента «Кодовые таблицы в России»

    3. Расчет количества текстовой информации.

  3. Решение задач.

  4. Практическая работа.

  5. Домашнее задание.

  6. Итог урока.

Ребята, сегодня вы сами будете себя оценивать. Я вам выдаю оценочные листы, где вы будете проставлять баллы. А в конце урока мы подведем итоги и вы поставите себе оценку.

Оценочный лист

Фамилия, имя: _____________________________________

  • 2
  • Решение задач
  • задание 1.
  • задание 2.
  • задание 3.
  • 3
  • Работа в парах
  • 4
  • Практическая работа
  • Рекомендации
  • Результат: ____________

Источник: https://infourok.ru/konspekt-uroka-po-informatike-na-temu-kodirovanie-tekstovoy-informacii-1240620.html

Ссылка на основную публикацию