Вход в систему

2medicus: Лучше вспомни, как почти вся Европа с 1939 по 1945 была товарищем по оружию для германского вермахта: шла в Ваффен СС, устраивала холокост, пекла снаряды для Третьего рейха. А с 1933 по 39 и позже англосаксонские корпорации вкладывали в индустрию Третьего рейха, "Форд" и "Дженерал Моторс" ставили там свои заводы. А 17 сентября 1939, когда советские войска вошли в Зап.Белоруссию и Зап.Украину (которые, между прочим, были ранее захвачены Польшей

подробнее ...

Рейтинг: +1 ( 1 за, 0 против).

medicus про Евтушенко: Отряд (Боевая фантастика)

cit anno:
"Но чтобы смертельные враги — бойцы Рабоче — Крестьянской Красной Армии и солдаты германского вермахта стали товарищами по оружию, должно случиться что — то из ряда вон выходящее"

Как в 39-м, когда они уже были товарищами по оружию?

Рейтинг: 0 ( 2 за, 2 против).

iv4f3dorov про Лопатин: Приказ простой… (Альтернативная история)

Дочитал до строчки:"...а Пиррова победа комбату совсем не требовалась, это плохо отразится в резюме." Афтырь очередной щегол-недоносок с антисоветским говнищем в башке. ДЭбил, в СА у офицеров было личное дело, а резюме у недоносков вроде тебя.

Рейтинг: +3 ( 4 за, 1 против).

medicus про Демина: Не выпускайте чудовищ из шкафа (Детективная фантастика)

Очень. Рублёные. Фразы. По несколько слов. Каждая. Слог от этого выглядит специфическим. Тяжко это читать. Трудно продираться. Устал. На 12% бросил.

Рейтинг: +1 ( 1 за, 0 против).

kiyanyn про Деревянко: Что не так со структурой атомов? (Физика)

Первый признак псевдонаучного бреда на физмат темы - отсутствие формул (или наличие тривиальных, на уровне школьной арифметики) - имеется :)

Отсутствие ссылок на чужие работы - тоже.

Да эти все формальные критерии и ни к чему, и так видно, что автор в физике остановился на уровне учебника 6-7 класса. Даже на советскую "Детскую энциклопедию" не тянет.

Чего их всех так тянет именно в физику? писали б что-то юридически-экономическое

подробнее ...

Рейтинг: +4 ( 4 за, 0 против).

Все впечатления

Авторы : [А] [Б] [В] [Г] [Д] [Е] [Ж] [З] [И] [Й] [К] [Л] [М] [Н] [О] [П] [Р] [С] [Т] [У] [Ф] [Х] [Ц] [Ч] [Ш] [Щ] [Э] [Ю] [Я]
[Все] [A] [B] [C] [D] [E] [F] [G] [H] [I] [J] [K] [L] [M] [N] [O] [P] [Q] [R] [S] [T] [U] [V] [W] [X] [Y] [Z] [Прочее] [І] [Є] [Ґ]

Как почистить сканы книг и сделать книгу [IvanStorogev? KpNemo] (fb2) читать постранично

- Как почистить сканы книг и сделать книгу 878 Кб, 21с. скачать: (fb2) - (исправленную) читать: (полностью) - (постранично) - IvanStorogev? KpNemo

[Настройки текста] [Cбросить фильтры]

IvanStorogev? KpNemo Как почистить сканы книг и сделать книгу

Часть 1.

А зачем?

Здесь есть 2 пути:

После сканирования книги её предполагается выкладывать в сеть (или хранить у себя на диске).

1) Можно распознать сканы в программе OCR, например FineReader (FR).

Если качество оригинала хорошее, например распечатка на лазернике с размером шрифта 12pt, то FR прекрасно распознает её без всяких дополнительных мер. Но вот если распознавать нужно старую книжку, на желтой неровной бумаге, грязную и т. п… Тут предварительная очистка резко повысит качество распознавания, а это значит, что гораздо меньше труда и времени уйдет на вычитку, т.е. ручное исправление ошибок. Надо сказать, что встроенные в FR средства очистки картинки довольно примитивные, так что с плохими, зашумленными сканами он справляется неважно.

2) Можно хранить нераспознанной, в виде растровой картинки, в том или ином формате: DJVU, PDF, TIFF.

Здесь предварительная очистка ещё уместнее. Во-первых, очищенный скан гораздо приятнее и не так утомительно читать. Во-вторых, что ещё важнее, после очистки сканы гораздо, в десятки раз, лучше сжимаются в любой формат. Дело в том, что случайные точки на изображении (шум) практически не сжимаемы, особенно когда их много.

Для очистки изображений применяется много различных методов и программ, порой стоимостью в тысячи и десятки тысяч долларов. Я опишу простой и доступный способ, особенно ценный тем, что руками придется работать только с одной страницей книги, остальные можно обработать автоматически, основываясь на сохраненных параметрах.

1-й этап: сканирование

Сканировать книжку нужно обязательно в режиме grayscale (серый). Обратите внимание: сканировать в режиме b/w (черно-белый) нельзя! В режиме b/w дальнейшая обработка будет невозможна.

Можно сканировать в true image (полноцвет), но это сильно замедлит обработку, увеличит объем файлов, а особенного выигрыша не даст. Исключение составляют случаи, когда на страницах есть цветные пятна грязи, тут работа с цветом может сильно помочь.

Некоторые сканеры позволяют выбрать один из цветовых каналов (красный, зеленый, синий), который будет использоваться при сканировании в серый, есть и другие настройки и их также можно покрутить. Но не увлекайтесь, большая часть фич сканера просто обработка картинки драйвером. То же самое можно сделать в фотошопе, только куда лучше.

Попробуйте разные варианты, выбирать нужно тот, где изображение контрастнее, буквы выглядят более четкими. Если при этом мелких шумов (например, фактура бумаги) будет, в разумных пределах, больше – это неважно, уберем потом.

Наоборот, если на бумаге есть крупные, размером в 2-3 буквы и больше, пятна, то нужно постараться подобрать настройки сканера так, чтобы эти пятна были бледными, по сравнению с буквами, пусть и ценой менее контрастных, по сравнению с другими вариантами букв.

Проще говоря, настраивайте сканер так:

1) Если крупных пятен нет, то главное сделать четкими буквы, а на шум особенно не глядеть.

2) Если крупные пятна есть, то главное их прибить, даже если буквы будут не такие уж четкие.

В том и другом случае нужно не перебарщивать, руководствуясь опытом и здравым смыслом.

Если вы пользуетесь для сканирования FR, то уберите в опциях сканирования «Очистить изображение», «Устранить искажение строк», «Делить развороты». Всё это вы сделаете потом, когда почистите сканы и втяните их обратно в FR. На этом этапе любая обработка изображения в FR только замедлит сканирование и ухудшит чистку изображения в более подходящих программах.

О выборе разрешения скана.

Обычно книжки с текстом сканируют с разрешением 300dpi. Это подходящее значение для чистого текста, приличного качества полиграфии и не слишком мелкого шрифта, короче очередной бестселлер типа: "Глухой против Слепого". Но в этом случае и чистка изображения не требуется. При зашумленном изображении, мелком шрифте нужно сканировать с разрешением 600dpi. Это сильно облегчит очистку и качество окончательного файла, если вы не будете распознавать книгу, а сохраните в виде сжатого растра. Не беспокойтесь о величине окончательного файла. Хорошо почищенная книга с разрешением 600dpi при сжатии в DJVU дает файл немногим больших размеров, чем с разрешением 300dpi.

Растровая форма хранения книг особенно часто применяется для книг с формулами. В этом случае сканирование с разрешением 600dpi обязательно, иначе трудно будет разобрать индексы в формулах, отличить похожие буквы, например "омега" и w. А ведь в математике нередки вложенные индексы (индекс индекса). Там при сканировании с разрешением 300dpi вообще трудно что-либо разобрать, тем более распечатать. Вот смотрите:

Буквы i и j на картинке слева трудно отличить друг от друга. А ведь это не скан, а печать в файл. При сканировании всё будет гораздо хуже –

Навигация

Вход в систему

Последние комментарии

Новое на форуме

Последние записи в блогах

Впечатления

Как почистить сканы книг и сделать книгу [IvanStorogev? KpNemo] (fb2) читать постранично

IvanStorogev? KpNemo Как почистить сканы книг и сделать книгу

Часть 1.

1-й этап: сканирование

О выборе разрешения скана.