↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Временно не работает,
как войти читайте здесь!
Жопожуй Конидзэ
27 ноября 2018
Aa Aa
#боль

Ненавижу PDF.
27 ноября 2018
11 комментариев из 55 (показать все)
Жопожуй Конидзэ
Ну вот пример разных пдф файлов
https://cloud.mail.ru/public/KxtP/gGFZTGm8k
Но распознавание сканированного текста - всегда очень приблизительное, особенно, если там есть много особых слов, надстрочных шрифтов и т.д.
А ну и еще один способ понять какой пдф перед тобой. Если поиск по тексту работает, то пдф конвертируемый. Если не работает, то отсканированный.)))

Если у создателя файла изначально есть только бумажная версия, то для превращения ее в распознаваемую читаемую версию надо затратить как минимум пару дней, в зависимости от объема книги, не считая времени на сканирование.

В общем создателям сканов учебников я все-таки всегда говорю спасибо, потому что хоть так, чем разыскивать учебники по каталогам библиотек, а потом заниматься копированием+перепечатыванием, а в самых ужасных случаях даже переписыванием.))
Худший формат в мире
LilyofValley
Тут как и с дежа вю есть возможность херануть в некоторых прогах автоматический-полуавтоматический ocr layer. То есть пользователю показывают отсканированную страничку, но есть распознанный текстовый слой, по которому можно вести поиск.

Вон чуваки из Абби очень подробно расписали, с картинками.
https://www.abbyy.com/ru-ru/finereader/pdf-types/

Дежа Вю, кстати, тоже очень годный формат для сканов книг по соотношению размер-качество. Но он занял узкую полупиратскую нишу сканированных книг, несмотря на весь потенциал.

О, слушай, а чем ты просматриваешь пдфы на компе? Могу нарекомендовать просто бомбезный супербыстрый просмотрщик pdf, djvu и ещё кучи форматов, включая ебуки типа epub и mobi. Я о Sumatra PDF - творении одного польского гения. Ещё оно комикбуки типа cbr-cbz умеет. Просто потрясающий комбайн.

Хего Дамаск
В слове "лучший" две ошибки.
Desmоnd
У меня акробат проф стоит для пдф файлов. Он в принципе распознает текст, но всё равно немного косячит и поиск не всегда идеально срабатывает.
LilyofValley
Ну так акробат проф - он сцуко тяжеловатый комбайн. У меня тоже стоит, мне по работе нужно, в основном для конвертации в pptx. А для просмотра - Суматра. Очень быстрая штука.
Desmоnd
Ага, вечером Суматру посмотрю.)
Desmоnd,

>Док - это "раз и готово" если ты изначально делал в ворде.

PDF - это "раз и готово", если ты изначально делал в PDF. Не? Я не понимаю, почему PDF - это проще, чем DOC, если для этой простоты ты изначально должен готовить документ в соответствующем формате и чуть затрахаться с форматированием всяких штук. Чем создание PDF проще создания DOC, когда речь не о печати документов?

>Именно для этого сохранение всего оформления. Не можешь прочитать в том виде? Ну, твои проблемы забавляют.

Чувак, еще раз. Возможность редактировать документ для удобства чтения - это не прочто какая-то особенная фича для задротов, которые не могут в твои шрифты - это базовая маст-хэв фича для читателей каких угодно документов. Это принцип информации, которая засчет своей редактируемости доступна для чьего угодно восприятия, а не какая-то задротская частность, к которой ты пытаешься свести все, что не дружит с нередактируемым PDF-форматом. Потому мне и непонятен смысл PDF как формата для чтения, тогда как лучшим форматом для чтения является тот, который позволяет всем прочесть что угодно в каком угодно виде, невзирая на различия в восприятии. А следовательно, мне непонятна и позиция тех, кто использует PDF как формат для расшара той или иной информации широкой публике - ведь сама цель такого расшара в том, чтобы это кто-то без проблем зачел.

>Но у тебя охуительные выводы: фб2 говно, потому что я не смог поменять фончик.

Лол, што. Можешь указать, где я такое говорил? Потому что я лично помню, что на вопрос "как ты относишься к fb2?" ответил в стиле "все эти ваши ебаные форматы для меня одинаково мутные, попробовал с fb2 как-то и быстро положил болт". Как бы сам ответ в стиле "я попробовал чо-то и забил" подразумевает, что я понимаю, что формат может оказаться и годным, просто я забил раньше, чем выяснил наверняка. Откуда что берете? :/

>ПДФ - действительно удобный для чтения формат с сохранением форматирования, иллюстраций, графиков и прочего

Еще раз. Если PDF не дает читателю отобразить содержимое документа так, чтобы читателю было легко воспринимать это содержимое, но зато железно фиксирует форматирование, графики и прочее, то этот формат идеален не для чтения, а для захардкоженного представления информации. Не для читателя, а для того, кому нужно отобразить все эти ваши диаграммы только так и не иначе. И я до сих пор не понял, кому в здравом уме такое может понадобиться, если речь не о печати документов.
Показать полностью
>Тут как и с дежа вю есть возможность херануть в некоторых прогах автоматический-полуавтоматический ocr layer. То есть пользователю показывают отсканированную страничку, но есть распознанный текстовый слой, по которому можно вести поиск.

... если я правильно понял, то это мой случай. Нашел, откуда скачивал - указано, что книга отсканирована. Но поиск по тексту работает.
Жопожуй Конидзэ
тогда как лучшим форматом для чтения является тот, который позволяет всем прочесть что угодно в каком угодно виде, невзирая на различия в восприятии.


А какой это формат? :)
Жопожуй Конидзэ
PDF - это "раз и готово", если ты изначально делал в PDF.

"Изначально в пдф" - это где такое? Не бывает "изначального пдф". Только в Адоби Иллюстратор, да и то, это костыль в виде "к пдф прикрепляем весь иллюстраторовский файл".

Чувак, еще раз. Возможность редактировать документ для удобства чтения - это не прочто какая-то особенная фича для задротов, которые не могут в твои шрифты - это базовая маст-хэв фича для читателей каких угодно документов.

Отредактируй текст на скане или на картинке. Это жы ж базовая мастхэв фича. Любых документов. А?
Все документы электронной дистрибуции не предполагают редактирования. Даже хтмл. Можно, с некоторым напрягом, и всё, если подобрать соответствующий редактор.

Если PDF не дает читателю отобразить содержимое документа так, чтобы читателю было легко воспринимать это содержимое

Предоставляет, но это, сурпрайз, должен быть специально подготовленный pdf. который, опять-таки сюрпрайз, никто для тебя, вбухивая хуеву тучу человекочасов, делать не будет. Если ты будешь покупать сразу готовый ебук в пдф, то в твоей любимой читалочке сможешь смотреть в удобненьком виде.
Точно так же, как ворд, хтмл и т.д. могут передать fixed layout, но это тоже работа. Которой никто не занимается просто так от нечего делать.

Если вычленить из твоего бугурта конструктив, то выходит не формат - гад, а то, что тебе, дав книгу нахаляву, ещё и не сопроводили рюшечками.
Показать полностью
LilyofValley
Полагаю TXT, но там цвет фона так просто в некоторых читалках не сменишь, лил.
ПОИСК
ФАНФИКОВ











Закрыть
Закрыть
Закрыть