[vicsireland] Re: Irish Language Scanning options

  • From: Ronan McGuirk <ronan.p.mcguirk@xxxxxxxxx>
  • To: fb-exchange <fb-exchange@xxxxxxxxxxxxx>, Ilka Stäglin <IlkaStaeglin@xxxxxxxxxxxxxx>, Lina Kouzi <lina.kouzi@xxxxxxx>, vicsireland <vicsireland@xxxxxxxxxxxxx>
  • Date: Sat, 31 Oct 2020 14:37:59 +0000

Hi all,

Thanks for suggestions so far.


Thanks to Robbie for the suggestion of Italian OCR. Thanks to
Cearbhall for carrying out a trial scan of Irish text with OCR set to
Italian.

Italian scanning results:

The results when scanning Irish text as Italian were a lot better than
when the language is set to English.

It recognised ó and é correctly in most cases. Mostly it recognised ú
as u grave.

Unfortunately it had trouble with á and mostly recognised this as a or
sometimes as d.  It mostly sees í as i.
Obviously it is possible to carry out a global edit of u grave to u
acute etc but the a and I problems are more difficult to fix.

Overall Italian OCR scanning of Irish is better than English scanning
of Irishbut I think it still leaves  a large amount of editing to fix
the text.

Test of WWW.i2ocr.com

At first glance this is an encouraging website. It supports OCR
scanning of Irish images or pdf files and has no limits and is free.

It seemed mostly accessible. I was able to upload an Irish 8-page pdf
file and to set the OCR language to Irish. I was able to complete the
first step, which is to convert the pdf to an image. This then
presented 8 links to images  on the page . The headings suggested that
the next step was to select an image and carry out OCR. I could not
manage to do this. Perhaps this feature is not accessible.

Next steps:
I will try to get sighted assistance with the www.i2ocr.com site.

From a quick read of the Italian and Spanish orthography pages on
Wikipedia, it looks to me that Spanish might be a better option than
Italian. I will investigate the scanning of Irish text with Spanish
OCR.

I will try scanning to an image file or converting a pdf to an image
file. I will try to carry out OCR on the image file with www.i2ocr.com
and with Tesseract.

Any other suggestions much appreciated.

In summary my best results at Irish scanning so far are with
FineReader online set to Irish. Unfortunately you only get 5 pages a
month for free.




On 20/10/2020, Ronan McGuirk <ronan.p.mcguirk@xxxxxxxxx> wrote:

Hi all,

Just wondering if anyone has any recommendations for the best approach
for Irish language OCR.

You will be aware that using an English language scanning solution
produces very poor results for Irish text. I have been on the
receiving end of files that were effectively unusable.

As far as I am aware, the Microsoft Windows builtin OCR solution, that
integrates with NVDA,  does not support Irish. Or, at any rate, I
haven’t got it to work yet, and it seems that the Irish Language files
from Microsoft that it uses  don’t support scanning.

Recently I have scanned documents with a flatbed scanner to a pdf
image file. I have then converted this to a searchable pdf file with
www.pdfconvertonline.com. This online service has an Irish Language
OCR option and the results are encouraging.

Just wondering if there are any better options out there.

Any suggestions much appreciated,

I am considering Tesseract, though it seems that it doesn’t support
pdf files directly.

Best regards,

Ronan

==========================================================The vicsireland 
mailing list

To unsubscribe at any time send a mail to:

vicsireland-request@xxxxxxxxxxxxx

with the word "unsubscribe", without the quotes in the subject of the message.

To contact the moderator send mail to:

tim.j.culhane@xxxxxxxxx

For mor information on the Visually Impaired Computer Society visit:

http://www.vicsireland.org

Other related posts: