Форум Химиков - Энтузиастов. Химия и Химики
http://www.chemistry-chemists.com/forum/

Как сканировать книги?
http://www.chemistry-chemists.com/forum/viewtopic.php?f=15&t=5003
Page 1 of 4

Author:  Volodymyr [ 24 Mar 2013 19:10 ]
Post subject:  Как сканировать книги?

Поскольку вопрос важен и его время от времени задают участники форума - решил создать отдельную тему.

Желательно сканировать книги на разрешении 600 dpi, если книга желтая - ставить "цветной 24 бита" (если нет - оттенки серого, но не черно-белый). При 300 dpi и ниже качество сильно падает.

Желательно, чтобы на компьютере был USB-2 или 3 - иначе время передачи данных от сканера очень растягивается.

Если сканер старый (медленный) - это значительно усложняет работу. Парочку небольших книг так отсканировать можно, но если вы планируете сканировать книги (и документы) хотя бы время от времени - стоит задуматься о новом сканере. Он себя окупит.
__________________________________________
Как правило, из отсканированных картинок потом создают djvu-файл. Я использую для этого бесплатную программу djvu-solo viewtopic.php?p=1047#p1047

1. Запускаем программу.
2. File - Open - (Опция jpg или другой формат картинки) - выбираем файл обложки.
3. File - Save as - (Вводим название) - В диалоговом окне: ставим точку напротив Scaned,
Resolusion для текста я ставлю 300 (чем меньше это число, тем больше файл) - жмем ОК
4. Файл обложки создан. Далее вставляем страницы:
Edit - Insert Pages After - (в диалоговом окне выбираем параметр jpg и опцию показать файлы таблицей);
выделяем все файлы, пользуясь кнопкой Shift и жмем ОК
5. Ждем, пока все картинки загрузятся (от нескольких секунд, до нескольких десятков минут), потом перемещаем вторую страницу в самый конец (где она должна быть)
и жмем File - Save
________________________________________________

Перед созданием djvu-файл страницы (картинки) можно обработать программой Scan Tailor - в случае аккуратной работы это значительно улучшит качество и уменьшит объем, но будьте внимательны - вы можете потерять часть текста и иллюстраций (например, если не так обрежете поле).

Author:  ycheff [ 24 Mar 2013 20:19 ]
Post subject:  Re: Как сканировать книги?

При самом сканировании книг удобно использовать программы, которые организуют этот процесс, например, Irfan View. Irfan View дает имена и нумерует файлы, позволяет преобразовать их оптом из одного формата в другой (напр., из jpg в tiff), позволяет сделать поворот скана, изменения яркости и контраста и пр.

Author:  radical [ 25 Mar 2013 13:30 ]
Post subject:  Re: Как сканировать книги?

У меня на работе МФУ Canon, он сканирует через свою программу в PDF формат. Я не уверен, будет ли он работать со сторонними программами. Управление идет не с компьютера, а с МФУ, для сканирования страницы нужно нажать кнопки Scan и Color (для цветного режима) на МФУ. Разрешение тоже выбирается в меню МФУ.

Author:  O'Bu [ 25 Mar 2013 14:31 ]
Post subject:  Re: Как сканировать книги?

Инструкция по изготовлению электронных книг (немного устаревшая, появились новые версии упомянутых программ):
Attachment:
ScanAndShare1.03.pdf [535.52 KiB]
Downloaded 911 times

Author:  Volodymyr [ 25 Mar 2013 15:56 ]
Post subject:  Re: Как сканировать книги?

radical wrote:
У меня на работе МФУ Canon, он сканирует через свою программу в PDF формат. Я не уверен, будет ли он работать со сторонними программами. Управление идет не с компьютера, а с МФУ, для сканирования страницы нужно нажать кнопки Scan и Color (для цветного режима) на МФУ. Разрешение тоже выбирается в меню МФУ.

В т.н. многофункциональных устройствах сканеры часто плохие: производитель на чем-то пытается экономить. Недостаток pdf в том, что страницы будут в виде картинок: суммарный размер файла будет примерно равен размеру картинок.

Главное, чтобы была возможность задать разрешение 600 dpi. pdf-файл можно потом сохранить как совокупность картинок и сделать из них djvu. Если же сканер будет выбирать параметры сканирования автоматически (разрешение, цвет и т.д.) - может получиться некачественно.

Author:  antabu [ 25 Mar 2013 16:20 ]
Post subject:  Re: Как сканировать книги?

Для сборки .djvu есть онлайновый сервис http://any2djvu.djvuzone.org/ , но ограничение на размер исходного архива и не хотят делать OCR кириллицы.

Author:  ycheff [ 25 Mar 2013 21:20 ]
Post subject:  Re: Как сканировать книги?

Quote:
сканирует через свою программу в PDF формат

Возможно, что pdf задан по умолчанию. Это легко меняется в той же программе.
У нас на работе формат по умолчанию каждый настраивает для себя - то pdf, то tiff, то jpg.

Author:  radical [ 25 Mar 2013 22:35 ]
Post subject:  Re: Как сканировать книги?

Спасибо за информацию, но вижу, что все равно нужно будет экспериментировать. Будет время, займусь.

Author:  Моня Квасов [ 27 Mar 2013 01:06 ]
Post subject:  Re: Как сканировать книги?

У меня дома сканера нет, но есть на работе, правда для личных целей эксплуатировать его не разрешают; сканирование книг расценивают как нецелевое использование… Но иногда дорваться к сему чудесному устройству получается.
И вот я обратил внимание, что частенько при сканировании просвечивается текст с «изнанки», т.е. с другой страницы сквозь бумагу. И такое наложение довольно сильно портит качество сканированной страницы.
Устранить этот недостаток оказалось просто, нужно подкладывать под книжный лист при его сканировании совершенно черный предмет: лист черной бумаги/картона, кусок полиэтиленовой черной пленки, например вывернутый кулек от молока, крашенный в черный цвет тонкий пластик или лист металла; и т.п.
Суть эффекта — черное на черном не видать! Темные буквы с изнанки на фоне черной подложки сливаются и при грамотно выставленном балансе яркости-контрастности получается четкий текст на белом или сером (цветном) фоне, если бумага плохая.

Author:  stas [ 27 Mar 2013 02:36 ]
Post subject:  Re: Как сканировать книги?

У меня сканер есть, но последние пару лет я книги не сканирую, а фотографирую - раз в 5 быстрее получается. Для этого использую старый фотоувеличитель "Ленинград-2" (у него пантограф - идеальная для этого дела конструкция, позволяющая легко и быстро подстраивать резкость).
Attachment:
Ленинград-2_(фотоувеличитель)-2.jpg
Ленинград-2_(фотоувеличитель)-2.jpg [ 163.15 KiB | Viewed 25672 times ]

Подготовка агрегата простая: надо лишь открутить стопорный винт и вывернуть объектив, освободив таким образом отверстие для установки фотоаппарата. Фотик накладывается на верхнюю плоскость (вместо конденсорной линзы) и приклеивается скотчем так, чтобы можно было менять аккумулятор и жать на спуск. В общем, у меня уже всё отработано.
"Сканировать" идеально при рассеянном дневном свете. Сначала выставляется, скажем, левая часть разворота и шпарятся подряд все страницы (щёлкнул - перевернул, щёлкнул - перевернул...), затем книга передвигается влево и шпарятся страницы справа. Нюанс: левые страницы пакетно переименовываются в хххх-а, правые - в хххх-б. После этого можно скинуть их в одну папку - страницы книги выстроятся в верном порядке (естественно, для этого надо отщёлкать их поровну или, по крайней мере, с разницей не более чем в одну страницу; следить за нумерацией).
К примеру, крупную 600-страничную книгу я фотографировал около 2,5 часов. Это с заменой подсевших аккумуляторов, периодическим сливом на комп заполненной флэшки, гимнастикой затёкшей спины...

Author:  Volodymyr [ 27 Mar 2013 03:38 ]
Post subject:  Re: Как сканировать книги?

В свое время мой знакомый сфотографировал однотомник Брауэра (Препаративная неорганическая химия). Формат книги был А3 (обычный сканер рассчитан на А4). Штатива у него не было и были большие проблемы с освещением - так что качество вышло не очень. Но что есть - то есть. Сделал из этих файлов djvu и выложил. Файл получился большой.

Потом много лет этот файл путешествовал по сети. Нашлись даже желающие его "усовершенствовать": они снизили разрешения. В результате размер уменьшился, но часть текста стала нечитабельной.

Позже один киевлянин отсканировал книгу заново и прислал вместе с сотней других. Так что проблема решилась.

Author:  Моня Квасов [ 27 Mar 2013 15:22 ]
Post subject:  Re: Как сканировать книги?

Vladimir wrote:
...
Желательно сканировать книги на разрешении 600 dpi, если книга желтая - ставить "цветной 24 бита" (если нет - оттенки серого, но не черно-белый). При 300 dpi и ниже качество сильно падает...

По-моему, 300dpi для большинства книг с нормальным шрифтом вполне достаточно, а 600 dpi — это многовато. При увеличении можно рассматривать волокна и укладку типографской краски. Зачем для чтения такая детализация? Размер файла и нагрузка на проц. растут существенно. Цвет тоже лишний, если нет цветного текста и/или цветных иллюстраций.
Мне приходилось некоторые книги пережимать, уменьшая разрешение и переводя страницы в градации серого. Толстые книги с чрезмерно лишними пикселями на слабом компе листать одно мучение.

Author:  Volodymyr [ 27 Mar 2013 20:52 ]
Post subject:  Re: Как сканировать книги?

Слабые компы - вид вымирающий, а халтурно отсканированная книга "апгрейду" не подлежит: она так и останется плохой и трудно читабельной (пока кто-то эту же книгу не отсканирует заново).

Если вы рассматриваете исходные картинки - это одно, а сделанный из них djvu-файл - совсем другое. Из картинок с низким разрешением невозможно создать нормальный djvu. Вернее можно, если вместо параметра "Сканированный текст" поставить "Изображения" - но тогда размер файла будет очень большим, практически как суммарный размер картинок (слабый комп при просмотре такого файла может вообще зависнуть).

Если дать 300 dpi и ниже - качество djvu может упасть настолько, что понадобиться дешифровальщик для того, чтобы разобрать текст - не говоря уже о иллюстрациях.

Зачем сканировать книгу без цветных иллюстраций в цвете? Да потому, что серый текст на желтом фоне вполне читабелен, а серый на сером - едва ли. Его еще можно разобрать в исходных jpg, но чтобы прочитать созданный из них djvu, вам придется постараться.

Author:  Моня Квасов [ 28 Mar 2013 09:58 ]
Post subject:  Re: Как сканировать книги?

Забыли, что есть планшетники и электр. книги, у которых не шибко навороченное нутро. По мере удешевления этих устройств все более популярно будет (потому что гораздо удобней) читать DJVU-книги на них.

Давайте на конкретном примере высмотрим, как изменится качество текста при чтении с экрана, если ужать рекомендованный вами скан раза в два.
Для глумливого растерзания беру книгу:
Реакции твердых тел. Браун М., Доллимор Д., Галвей Л. 1983;
второй разворот с аннотацией. Итак,

• слева — пережатый мной целиком весь djvu, размер данной страницы 3234x2441, желтый фон оставил.

• справо — тоже самое, только серый фон;

• а серединка— это ваш оригинал, размер страницы 6469x4882, родной желтый фон;

Оба варианта книги в программе WinDjView выведены на полный экран (F11) и увеличены до 125% (жать Ctrl+M). Размер шрифта на экране видится одинаковым в обеих вариантах.
Далее я сделал скрины (Alt+PrtSc), сохранил их в файл, чтобы одним взглядом вы могли сравнить все варианты.

Attachment:
File comment: Представленная здесь картинка из BMP сохранена в JPEG-файл с параметром качества 100%, чтобы исключить явные артефакты сжатия.
.

Сравнение DJVU.jpg
Сравнение DJVU.jpg [ 1.85 MiB | Viewed 25519 times ]


И насколько критично снизилось качество? ;)

P.S.
Размер файла оригинала 23,2 МБ, пережатого мной 5,22 МБ. :ah:

Author:  Volodymyr [ 28 Mar 2013 18:16 ]
Post subject:  Re: Как сканировать книги?

Вообще-то для подобных экспериментов нужны исходные сканы, а не страницы, уже конвертированные программой. Советую выбрать старую книгу - с желтыми страницами и светло-серным текстом (например, Карякин 1947 года) и проблемами с доступностью текста возле переплета (кто сканировал книги - поймет).

Попробуйте отсканировать книгу сами: вместо того, чтобы вытягивать картинки из книг, отсканированных другими.
Иначе это выглядит, как попытка доказать свою правоту любой ценой (спор ради спора). Обычно так поступают люди, которые страдают от избытка свободного времени и недостатка желания.

______________________________________________________
1. Качество снизилось ощутимо. Если вы собираетесь читать всю книгу, а не только "пробную страницу" - ваши глаза почувствуют за счет чего была экономия в 18 Мб.
Хотите экономить место на диске и гробить зрение? Это ваш выбор, но других людей он ни к чему не обязывает.

2. Для подобных экспериментов рекомендую выбрать страницы с затенением на полях разворотов (в которое попадает текст): при снижении разрешения исходных сканов текст возле переплета просто исчезает (в вашем примере темная полоса изящно поглотит текст).

3. Одной страницы для обобщающих выводов мало: попробуйте отсканировать десяток-другой книг, тогда многие вопросы отпадут сами собой.

4. Если вас так беспокоит место на диске: обработайте книгу в Scan Tailor. Объем упадет, а качество улучшится.

P.S. Снизить разрешение и ужать картинки никогда не поздно: это минутное дело. Но если окажется, что вы отсканировали текст с плохим разрешением - работу придется делать заново.
Время же сканирования (даже для не очень хороших сканеров) слабо зависит от того стоит 300 или 600 dpi

Author:  Моня Квасов [ 29 Mar 2013 08:25 ]
Post subject:  Re: Как сканировать книги?

Два предыдущих сообщения были для тех, кто сталкивался с тормозами при чтении некоторых книг на вполне конкретном устройстве, в моем случае — это планшетник. Читалки обычно не сообщают о причинах тормозов явным образом, доступным и понятным неискушенному пользователю.
Поэтому, я предложил вариант решения проблемы без существенной потери качества, на мой взгляд приемлемый для таких ситуаций.
Это не нужно делать правилом для всех. Каждому свое!

Vladimir wrote:
Попробуйте отсканировать книгу сами: вместо того, чтобы вытягивать картинки из книг, отсканированных другими.
Иначе это выглядит, как попытка доказать свою правоту любой ценой (спор ради спора). Обычно так поступают люди, которые страдают от избытка свободного времени и недостатка желания.

Главный администратор/модератор форума хочет перейти на личность? :bm:
Я написал в этой теме, потому что не нашел другой, более близкой, где обсуждались бы технические вопросы по работе со сканированными книгами.
Играть в перетягивание толстого каната в троллинге не буду. Со своей стороны дальнейшее обсуждение этой темы — нах. :aq:

Author:  antabu [ 29 Mar 2013 13:34 ]
Post subject:  Re: Как сканировать книги?

Между 300 и 600 dpi есть и компромиссные решения. Для достоверного распознавания текста большие значения предпочтительны, особенно это касается программ, альтернативных Файнридеру.

Author:  Upsidesium [ 30 Mar 2013 03:45 ]
Post subject:  Re: Как сканировать книги?

Во время учебы в универе сканил лекции ставил как минимум 600-800 dpi и конвертировал в дежавю как фотографию. Потом текст можно было распечатать в хорошем качестве. Другие варианты не особо подходили для рукописного текста, да еще с полупрозрачными чернилами.

Author:  radical [ 01 Apr 2013 14:32 ]
Post subject:  Re: Как сканировать книги?

Попробовал сегодня сосканировать разворот книжки с такими настройками, размер файла получился 100МБ :ai:
Что я делаю не так?

Attachments:
setting.JPG
setting.JPG [ 61.46 KiB | Viewed 25382 times ]

Author:  Oleg [ 01 Apr 2013 14:56 ]
Post subject:  Re: Как сканировать книги?

antabu wrote:
Между 300 и 600 dpi есть и компромиссные решения. Для достоверного распознавания текста большие значения предпочтительны, особенно это касается программ, альтернативных Файнридеру.

Но есть нюанс - у ПЗС-линейки сканера конкретный шаг пикселей. И естественными являются разрешения кратные этому.
Конечно, драйвер сканера Вам программно наинтерполирует любое, но нужно понимать разницу между интерполированным изображением и изображением непосредственно сканированным в данном разрешении.
Опыт показывает, что TIFF 600dpi в градациях серого является наиболее пригодным для последующего распознавания. После распознавания конвертируется в однобитное изображение + распознанный текст. Т.е. эти огроммные тиффы нужны до этапа распознавания, дальше из можно убить. А однобитные 600dpi сканы, особенно, если их обработать для сглаживания краёв и удаления мусора, чрезвычайно компактны и очень причтночитаемы - на мелком тексте с 300dpi не сравнить.

Page 1 of 4 All times are UTC [ DST ]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/