Блог перфекционистки

Проза нашей реальности

(*)(*)

Окт
05

Как конвертировать PDF и djvu в формат doc


Многие из нас активно используют в своей работе отсканенные тексты. Кто-то убивает часы, загоняя книжные страницы вручную под сканерный пресс, а кто-то поступает умнее и скачивает уже ошлифованные кем-то книжки.

У таких книжек есть один неоспоримый плюс и страшно раздражающий и стопорящий работу минус. Плюс в том, что вероятность уникальности контента в отсканенной и запакованной в архив книжке выше, чем у множества доковских документов, в беспорядке разбросанных по сети.
Минус – в том, что можно смотреть, но нельзя трогать. А если точнее: вы когда-нибудь пробовали вытаскивать текст без подручных средств из книг формата дежавю?

Я пробовала и могу вам сказать: или я где-то недоучила матчасть или у всех аналогичные проблемы, но никто в них не признается.
Так вот, для сато-строителей или просто контенто-искателей я выложу схему превращения безобразных картиночных книг в приемлемые тексты.

Шаг 1:
Нам нужна программка IrfanView. Версий у нее множество, насколько я знаю – последняя это 4.25. Программа бесплатна с возможность скачивания с официального сайта.
Я же путем нехитрых приемов поиска откопала ее на этом сайте.

Кстати, пожалуй, лучший софт-варезник, ни одного битого файла мне еще не попадалось.

По сути, IrfanView представляет из себя конвертировщик мультимедийных файлом, преимущественно графики. Читаемых ею форматов не пересчитать по пальцам двух рук!
Нас интересует формат .djvu, ибо из обычных пдф перегнать можно намного проще, а вот с дежавю придется помучаться.

Не слушайте вранья, что программа многоязычна – это все выдумки. Сколько бы плагинов я не ставила – она упорно выдавала мне английскую речь, раздражающую до крайности.

При установки вам милостиво предложат поставить милый Гугл Тулбар, будьте внимательны!

Шаг 2:
Программу скачали? Установили?
Хорошо, но это еще не все. Без нужных плагинов программа ничего преобразовывать нам не будет.

Вот странно: почему бы не сделать цельную программу? А то понасоздавали плагинов, ищи их потом отдельно от платформы.
Плагины качаем отсюда.
И, что называется, поглядите разницу: программа весит один метр, а вот плагины к ней…

большой объем плагинов
Шаг 3:
Все установили, а теперь приступим к работе. Наша задача проста: открыть дежавю файл, сохранить его как пдф, а затем перехить к следующему этапу конвертации.

Для удобства, в поле Тип файлов сразу выбираем нужный нам:

Стрелки на панели инструментов нажимать не нужно – они отвечают не за прокрутку страниц в этом документе, а за просмотр всех файлов в выбранной директории (в данном случае, на рабочем столе)

Далее выбираем вкладку File – Save as, а затем в выпадающем окне отмечаем нужный нам формат, а именно PDF.

В ответ на наш выбор вылетает окошко (с зеленым шаром для боулинга). В нем мы выбираем формат страницы А4 и, не закрывая окошко (а то закроем и всю программу), жмем кнопку Сохранить.

Все, процесс конвертации пошел.

конвертация файла

Шаг 4:

Теперь нам нужен ПДФ-трансформер, который поможет сделать вполне себе готовые доковские документы – хоть сейчас на сайт загоняй.

Называется он ABBYY PDF Transformer, а качается отсюда.

Устанавливаем, ждем пока программа медленно и печально внедряется в систему…

Шаг 5:

Открываем работу в триальном режиме (если кому не жалко – дайте ключик пожалуйста), программа не бесплатна. Выбираем наш сконвертированный ПДФ.

Особое внимание обратите на настройку конечного документа. Кликаем сюда:

интерфейс программы
По умолчанию там стоит док, но мало ли, бывает, что и настройки сбиваются…

Или настроить можно так:

снова интерфейс

Далее нажимаем кнопку конвертировать, та, что наверху (я минуты 2 ее искала…)

Предупреждаю – конвертируется долго, за это время можно успеть попить кофе и обнять любимого человека. А потом снова за работу :)

Шаг 6:
А все, больше-то делать нечего!
Радуемся полученному результату :)

Похожие записи

  1. Leon, Reply to this comment
    05 Окт 2009

    У-у-у сколько работы для людей которые работают со сканом
    Слава богу мне не надо так париться :cool:

  2. Sk8er, Reply to this comment
    05 Окт 2009

    Ага, так отсканить книжку, потом смотришь - контент не уник :evil:

  3. Леднёв, Reply to this comment
    05 Окт 2009

    Спасибочки тебе :lol: только жаль, что программа для перевода в формат doc очень много весит, я со своим инетом ее не рискну скачать :sad:
    p.s. так вот о чем ты вчера в аське говорила :wink:

  4. Lena, Reply to this comment
    05 Окт 2009

    Leon, тс-с-с! Еще чуть-чуть и ты спалишь тему! :mrgreen:

    Sk8er, ну не без того…Ругаться хочется и ногами топать. Потому я и не сканю, а из множества готовых пдф можно найти сравнительно уникальные (один-два дубля)

    Леднёв, ага :) Серьезное упрощение работы! Я тебе советую найти ее на трекере и потихоньку качать… :wink:

  5. Леднёв, Reply to this comment
    05 Окт 2009

    Lena: я уже нашел решение - у меня уже был установлен ABBYY FineReader - теперь через него очень даже хорошо получается :smile:

  6. Курский бомж, Reply to this comment
    05 Окт 2009

    Я с учетом всего своего опыта и своих додумок тоже статью написал сегодня по обработке скана. Инструменты правда совсем другие. У меня на блоге можете почитать, думаю у меня попродуманней способ и доведен до ума окончательно :wink:

  7. Leon, Reply to this comment
    06 Окт 2009

    Насчёт контента тут палить нечего :mrgreen:
    Относительно это давно в паблике, но юзали раньше только СДЛ какие именно не скажу :) только один человек догадался юзать это в сателлитах (это не я :mrgreen: )

  8. Курский бомж, Reply to this comment
    06 Окт 2009

    Конечно палить тут нечего :smile: Просто можно больше усилий затрачивать, а можно меньше в этом всего лишь и разница. А кроме скана еще много чего можно использовать в сателлитах….

  9. Lena, Reply to this comment
    06 Окт 2009

    Курский бомж, знаешь, а мне и мой способ отлично подходит. Быть может не такая хирургическая настройка параметров распознавания, но зато просто быстро и топорно :razz:

    Leon, просто ты теперь (после скачка тиц и сапомарафона) знаменитейшая личность, все сидят и с упоением ждут каждого твоего слова, судорожно пытаясь словить халявную тему :mrgreen:

    Так что смотри: каждое упоминание про тиц, контент и сапу - один случившийся инфаркт от разочарования :eek:

  10. Блог перфекционистки » Blog Archive » Новости по возвращению, Reply to this comment
    20 Окт 2009

    [...] Я доконвертировалась на свою голову… После экспорта книжек в Word, программа приняла бесстыдно-порнографический вид, печатает однобоко – в общем где-то наметился разлад. Ничего не могу поделать, переустановка ничего не решила. В целом я согласна и на блокнот, орфография Worda мне не нужна, но не люблю я привыкать к новому! [...]

  11. Виталина, Reply to this comment
    25 Ноя 2009

    У меня такая проблема, при конвертации постоянно выдается ошибка, как ее исправить я не знаю…. И выдается она почти к концу. Кто может стплкивался, подскажи те как исправить и что сделать.

  12. Lena, Reply to this comment
    25 Ноя 2009

    Виталина: отпишитесь, на каком этапе и какого рода возникает ошибка - может я смогу вам помочь.

  13. Виталина, Reply to this comment
    25 Ноя 2009

    Lena: была ошибка PDF error -36 или как то так, и это ближе к концу… Я умаю, скорее всего, из-за большого объема книги, другая книжка без проблем перевелась в PDF и DOC…. Вот и думаю, что не так :sad:

  14. Lena, Reply to this comment
    25 Ноя 2009

    Виталина: по моим ссылкам качали?
    Я конвертировала 700-страничные книги, на большем объеме не экспериментировала.

    Может просто сама программа кривая…

  15. Виталина, Reply to this comment
    26 Ноя 2009

    Lena: да качала по этим ссылкам :) у меня книжка весит 9,5 метров и в ней 377 страниц, только не хочет ничего, маленькую книгу распознала только так ( думаю сейчас через файнридер распознать, долго правда, но тоже хорошая вещь

  16. Nadin, Reply to this comment
    05 Янв 2010

    спасибо большое! но при конвертации возникла проблема: в тестовой версии ABBYY PDF Transformer 3,0 предлагает конвертировать только первые 2 страницы, а мне нужно именно 12-ую :grin: Что делать? в меню нет пункта как в описании: конвертировать выбранные страницы……….. :cry:

  17. Lena, Reply to this comment
    08 Янв 2010

    Nadin: да дело все в том, что у меня не пробная версия :neutral:
    Скачайте себе взломщик, ибо пробные выдают ошибки, ну или, как в вашем случае не конвертируют нужное кол-во страниц… :cry:

  18. zangar, Reply to this comment
    03 Фев 2010

    Вах! Не даром на Востоке говорят: “Выслушай, что скажет тебе женщина - и сделай наоборот”. А именно: 1) берем обычный виртуальный принтер, хотя бы Acrobat Distiller из суперпополярного пакета Acrobat, 2) открываем противный djvu-файл, 3) нажимаем в Djvu_Reader’e кнопочку Печать и в качестве принтера выбираем Distiller, 4) на выходе имеем обычный PDF-файл, который либо конвертируется, либо суётся в OCR. Enjoy!

  19. Volchitca, Reply to this comment
    15 Фев 2010

    Abbyy PDF Transformer Pro 2.0.0.1147 + лекарство
    Я качала от сюда http://chuchuka.ru/2009/10/23/abbyy-pdf-transformer-pro-2.0.0.1147-lekarstvo.html

  20. Lena, Reply to this comment
    16 Фев 2010

    zangar: ну у всех разные способы :) Я ж не утверждала, что мой единственно верный, ваш может с моим поконкурировать )

    Volchitca: О, ну может и пиар, но в лице вас и этой ссылки мне пришло спасение - я вечно крек удаляю, а потом конвертить не могу :(

  21. танк, Reply to this comment
    03 марта 2010

    я наверно чайник..но я не пойму как в djvu выделить все страницы чтобы конвертировать их в ПДФ

  22. Leip, Reply to this comment
    24 марта 2010

    Мне кажется стоит упомянуть перед скачиванием ABBYY PDF Transformer,что после долгого скачивания и большого времени ожидания,с момента скачивания и самой установки,вы получите конкретный обрез программы,где оджновременно можно сконвертировать всего лишь 2 страницы,и скриншотики стоит изменить.Начиналось неплохо,а в оконцове только время потерял!(((

  23. Lena, Reply to this comment
    24 марта 2010

    Leip: ну разумеется, чтобы снять триал-режим нужен код активации!

    “Устанавливаем, ждем пока программа медленно и печально внедряется в систему…

    Шаг 5:

    Открываем работу в триальном режиме (если кому не жалко – дайте ключик пожалуйста)”

    Читайте внимательно, а уж потом упрекайте. Никто вам не виноват, в том что время потеряли.

Мне было бы очень приятно услышать ваш отзыв. Не оставите мне комментарий?"

        Нажмите на , чтобы ответить выбранному комментатору.