Оглавление блога

суббота, 17 декабря 2011 г.

Люди добрые, подскажите, если кто знает:

Есть несколько поваренных книг в формате pdf, из двух не удается извлечь текст (пароль в одной из них был, я его снял, теперь всё разрешено). "Сохранить как текст" дает файл txt из одних одинаковых квадратиков.



Copy&paste дает в ворде файл с белибердой вместо текста:



Дело в шрифтах, судя по всему. В одном:



в другом:



Нельзя ли как-нибудь, не прибегая к OCR или файнридеру, а то уж очень муторно?

Заодно, нет ли непыльного способа извлечь текст с гуголь-букса, там где он предлагает только просмотр части текста, без возможности скачивания?

1 комментарий :

Yummie Dummy комментирует...

в случае «хитрых» пдфов я бы плюнул и распознал файнридером.

а для гуглобуксов есть отличный даунлоадер: http://www.addictivetips.com/windows-tips/a-complete-guide-how-to-download-books-from-google-in-pdf-format/