Сканування і розпізнавання тексту

Доброго дня.

Напевно, кожен з нас стикався із завданням, коли потрібно перевести паперовий документ в електронний вигляд. Особливо це часто потрібно робити тим хто вчитися, працює з документацією, переводить тексти за допомогою електронних словників і т.д.

У цій статті мені хотілося б поділитися деякими азами цього процесу. Взагалі, сканування та розпізнавання тексту - досить трудомістким, так, як більшість операцій доведеться робити вручну. Ми спробуємо розібратися по кроках, що, як і чому.

Не всі відразу розуміють одну річ. Після сканування (пригону всіх листів на сканері) у вас будуть картинки формату BMP, JPG, PNG, GIF (можуть бути і інші формати). Так ось з цієї картинки потрібно отримати текст - це процедура називається розпізнаванням. В такому порядку і буде виклад нижче.

зміст

  • 1 1. Що потрібно для сканування і розпізнавання?
  • 2 2. Параметри сканування тексту
  • 3 3. Розпізнавання тексту документа
    • 3.1 3.1 Текст
    • 3.2 3.2 Зображення
    • 3.3 3.3 Таблиці
    • 3.4 3.4 Непотрібні елементи
  • 4 4. Розпізнавання файлів PDF / DJVU
  • 5 5. Перевірка помилок і збереження результатів роботи

1. Що потрібно для сканування і розпізнавання?

1) Сканер

Для перекладу друкованих документів в текстовий вигляд, вам для початку потрібен сканер і відповідно, «рідні» програми і драйвери, які з ним йшли. За допомогою них можна буде сканувати документ і зберегти його для подальшої обробки.

Можна скористатися і іншими аналогами, але софт, який йшов зі сканером в комплекті, зазвичай працює швидше і має більше опцій.

Залежно від того, який у вас сканер - швидкість роботи може мати відчутні відмінності. Є сканери, які можуть отримати картинку з листа за 10 сек., Є які будуть отримувати за 30 сек. Якщо здійснюється сканування книгу на 200-300 аркушів - думаю, не важко підрахувати у скільки разів буде різниця в часі?

2) Програма для розпізнавання

У нашій статті я буду показувати вам роботу в одній з кращих програм для сканування і розпізнавання абсолютно будь-яких документів - ABBYY FineReader. Оскільки програма платна, то відразу дам посилання і на іншу - її безкоштовний аналог Cunei Form. Правда, я б не став їх порівнювати, з огляду на те, що FineReader виграє за всіма параметрами, рекомендую все ж спробувати саме її.

ABBYY FineReader 11

Офіційний сайт: http://www.abbyy.ru/

Одна з кращих програм в своєму роді. Вона призначена для того, щоб розпізнати текст на зображенні. Вбудовано безліч опцій і функцій. Може розібрати купу шрифтів, підтримує навіть рукописні варіанти (правда, особисто не пробував, думаю, добре навряд чи буде розпізнавати рукописний варіант, якщо тільки у вас не ідеальний каліграфічний почерк). Більш детальну інформацію про роботу з нею буде розказано нижче. Тут же відзначимо, що в статті буде розказано про роботу в програмі 11 версії.

Як правило, різні версії ABBYY FineReader не сильно відрізняються один від одного. Ви без праці зробите те ж саме і в інший. Головні відмінності можуть бути в зручності, швидкості роботи програми та її можливості. Наприклад, більш ранні версії відмовляються відкривати документ PDF і DJVU ...

3) Документи для сканування

Так, ось так от, вирішив винести документи окремою графою. У більшості випадків сканують якісь підручники, газети, статті, журнали та ін. Тобто ті книги і ту літературу яка користується попитом. Я це до чого веду? З особистого досвіду можу сказати, що багато чого, що ви захочете сканувати - можливо вже є в мережі! Скільки разів особисто я економив час, коли знаходив ту чи іншу книгу вже скановану в мережі. Мені залишалося тільки скопіювати текст в документ і продовжити з ним роботу.

З цього проста порада - перш ніж щось сканувати, перевірте, може вже хтось відсканував і вам не потрібно втрачати свій час.

2. Параметри сканування тексту

Тут я не розповідатимуть про ваших драйвери для сканера, програмах, які разом з ним йшли, бо всі моделі сканерів різні, ПО теж скрізь різне і вгадати і тим більше показати наочно як виконувати операцію - нереально.

Але у всіх сканерах є одні й ті ж настройки, які сильно можуть вплинути на швидкість і якість вашої роботи. Ось про них таки якраз і поговоримо тут. Буду перераховувати по порядку.

1) Якість сканування - DPI

По-перше, якість сканування поставте в опціях не нижче 300 DPI. Бажано навіть виставити побільше, якщо це можливо. Чим вище показник DPI - тим чіткіше вийти ваша картинка, ну і тим самим, швидше пройде подальша обробка. До того ж чим вище якість сканування - тим менше помилок вам надалі доведеться виправляти.

Оптимальний варіант забезпечує, зазвичай, 300-400 DPI.

2) Кольоровість

Цей параметр дуже сильно впливає на час сканування (до речі, DPI теж впливає, але ті так сильно, і тільки коли користувач ставить високі значення).

Зазвичай виділяють три режими:

- чорно-білий (відмінно підійде для простого тексту);

- сірий (підійде для тексту з таблицями і зображеннями);

- кольоровий (для кольорових журналів, книг, в загальному, документів, де важлива кольоровість).

Зазвичай від вибору кольоровості залежить час сканування. Адже якщо документ у вас великий, то навіть зайві 5-10 секунд на сторінці в цілому виллються в пристойний час ...

3)

Документ ви можете отримати не тільки скануванням, але і сфотографувавши його. Як правило, в цьому випадку у вас будуть деякі інші проблеми: спотворення картинки, розмиття. Через це може знадобитися більш тривала подальша правка і обробка отриманого тексту. Особисто я не рекомендую користуватися фотоапаратами для цієї справи.

Важливо відзначити, що не кожен такий документ вийде розпізнати, тому що якість сканування у нього може бути вкрай низьким ...

3. Розпізнавання тексту документа

Будемо вважати, що заповітні скановані сторінки ви отримали. Найчастіше вони являють собою формати: tif, bmb, jpg, png. В общем-то, для ABBYY FineReader - це не сильно важливо ...

Після відкриття в ABBYY FineReader картинки, програма, як правило, на автоматі починає виділяти області і розпізнавати їх. Але іноді вона робить це не правильно. Для цього-то ми і розглянемо виділення потрібних областей вручну.

Важливо! Не всі відразу розуміють, що після відкриття документа в програмі, зліва у вікні відображається вихідний документ, в якому ви і виділяєте різні області. Після натискання на кнопку «розпізнавання» програма у вікні праворуч виведе вам готовий текст. Після розпізнавання, до речі, доцільно перевірити текст на помилки в тому ж самому FineReader.

3.1 Текст

Ця область використовується для виділення тексту. Картинки і таблиці потрібно виключати з неї. Рідкісні і незвичайний шрифти доведеться вводити вручну ...

Для виділення текстової області, зверніть увагу на панель у верхній частині FineReader. Там є кнопка «Т» (див. Скріншот нижче, покажчик мишки якраз на цій кнопці). Натискаючи на неї, потім на зображенні нижче виділяєте акуратно прямокутну область, в якій розташовується текст. До речі, в деяких випадках потрібно створювати текстових блоків по 2-3, а іноді по 10-12 на сторінку, тому що форматування тексту може бути різним і одним прямокутником всю область і не виділити.

Важливо відзначити, що в текстову область не повинні потрапляти картинки! Надалі це вам заощадить купу часу ...

3.2 Зображення

Використовується для виділення картинок і тих областей, які важко розпізнати через погану якість, або незвичайності шрифту.

На скріншоті нижче покажчик мишки знаходиться на кнопці, використовуваної для виділення області «картинка». До речі, в цю область можна виділити абсолютно будь-яку частину сторінки, а FineReader вставить її потім в документ як звичайну картинку. Тобто просто «тупо» скопіює ...

Зазвичай цю область використовують для виділення погано відсканованих таблиць, для виділення нестандартного тексту та шрифту, само-собою картинок.

3.3 Таблиці

На скріншоті нижче показана кнопка для виділення таблиць. Взагалі, особисто я її використовую вкрай рідко. Справа в тому, що вам доведеться досить рутинно малювати (фактично) кожну лінію на таблиці і показувати що і як програмою. Якщо таблиця невелика і в не дуже хорошій якості, я рекомендую для цих цілей використовувати область «картинка». Тим самим заощадите купу часу, а таблицю можна потім в Word зробити швиденько на основі картинки.

3.4 Непотрібні елементи

Важливо відмітити. Іноді на сторінці є непотрібні елементи, які заважають розпізнати текст, або взагалі не дають вам виділити потрібну область. Їх можна за допомогою «гумки» видалити зовсім.

Для цього переходимо в режим редагування зображення.

Вибираємо інструмент «ластик» і виділяємо непотрібну область. Вона зітреться і на її місці буде білий аркуш паперу.

До речі, рекомендую використовувати вам цю опцію якомога частіше. Намагайтеся все текстові області які ви виділили, де вам не потрібен шматок тексту, або присутні будь-які непотрібні точки, розмитості, спотворення - видаляти ластиком. Завдяки цьому розпізнавання буде швидше!

4. Розпізнавання файлів PDF / DJVU

Взагалі, цей формат розпізнавання не відрізнятиметься нічим іншим від інших - тобто працювати з ним можна так само як з картинками. Єдине, програма не повинна бути занадто старої версії, якщо файли PDF / DJVU у вас не відкриваються - поновіть версію до 11.

Невеликий рада. Після відкриття документа в FineReader - він автоматично почне розпізнавати документ. Часто в файлах PDF / DJVU певна область сторінки не потрібна у всьому документі! Щоб видалити таку область на всіх сторінках зробіть наступне:

1. Зайдіть в розділ редагування зображення.

2. Увімкніть опція «обрізки».

3. Виділіть область, потрібну вам на всіх сторінках.

4. Натисніть застосувати до всіх сторінок і обріжте.

5. Перевірка помилок і збереження результатів роботи

Здавалося б, які ще можуть бути проблеми, коли всі області були виділені, потім розпізнані - бери та зберігай ... Не тут то було!

По-перше, потрібна перевірка документа!

Щоб її включити, після розпізнавання, у вікні праворуч, буде кнопка «перевірка», див. Скріншот нижче. Після її натискання програма FineReader буде автоматично показувати вам ті області, де у програми виникли помилки і вона не змогла достовірно визначити той чи інший символ. Вам залишиться тільки вибирати, або ви згодні з думкою програми, або вводите свій символ.

До речі, в половині випадків, приблизно, програма буде вам пропонувати готове правильне слово - вам залишиться лише тоді мишкою вибрати потрібний варіант.

По-друге, після перевірки вам потрібно вибрати формат, в який ви збережете результат своєї роботи.

Тут FineReader дає вам розвернутися на повну котушку: можна просто передати інформацію в Word один в один, а можна зберегти її в одному з десятків форматів. Але хотілося б виділити інший важливий аспект. Який формат б не вибрали, більш важливо вибрати тип копії! Розглянемо найцікавіші варіанти ...

Точна копія

Всі області, які ви виділяли на сторінці в розпізнаний документі будуть відповідати точнісінько вхідного документа. Дуже зручний варіант, коли вам важливо не втратити форматування тексту. До речі, шрифти так само будуть дуже схожі на оригінал. Рекомендую при такому варіанті передавати документ у Word, щоб уже там продовжити подальшу роботу.

копія, що редагується

Цей варіант хороший тим, що ви отримаєте вже форматований варіант тексту. Тобто відступів з «кілометр», які можливо були в початковому документі - ви не зустрінете. Корисна опція, коли ви будете значно редагувати інформацію.

Правда, не варто вибирати, якщо вам важливо зберегти стилістику оформлення, шрифти, відступи. Іноді, якщо розпізнавання пройшло не дуже успішно - ваш документ може «перекосити» через зміненого форматування. У цьому випадку доцільно вибрати точну копію.

простий текст

Варіант для тих, кому потрібен просто текст зі сторінки без всього іншого. Підійде для документів без картинок і таблиць.

На цьому стаття по скануванню і розпізнаванню документа підійшла до кінця. Сподіваюся, що за допомогою цих простих порад ви зможете вирішити свої завдання ...

Успіхів!

Комп'ютерна Допомога
Цифрова Техніка
Виробники TV