Extract text dari file PDF hasil scan menggunakan pdfimages dan tesseract-ocr
26 Desember 2012 1 Komentar
Meng-extract text dari file pdf yang dibuat menggunakan software seperti misalnya export dari OpenOffice.org atau Ms Office dapat dilakukan menggunakan berbagai software yang tersedia, baik online maupun offline. Lihat hasil Google dari link ini.
Dengan menggunakan pdfimages dan tesseract-ocr kita dapat membuat sendiri aplikasi untuk meng-extract text dari file PDF hasil scan, yang sebenarnya adalah image yang di-attach ke file PDF tersebut.

