2020年11月7日 星期六

Python OCR使用

使用Tesseract-OCR及Pytesseract套件 

 Tesseract下載位置: 
 https://github.com/tesseract-ocr/tesseract/wiki 

 中文辨識檔案下載位置: 

 https://github.com/tesseract-ocr/tessdata

下載後放到C:\Program Files\Tesseract-OCR\tessdata目錄下。  

Pytesseract套件使用方法參考:
 https://pypi.org/project/pytesseract/

 範列:
from PIL import Image
import pytesseract

#設定Tesseract安裝位置。
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
#將圖片轉成文字。
print(pytesseract.image_to_string(Image.open('D:\\Test.png'), lang='chi_tra+eng'))

#轉PDF

with open('D:\\ToPDF.pdf', 'w+b') as f:
    f.write(pytesseract.image_to_pdf_or_hocr('D:\\Test.png', extension='pdf')) 

沒有留言:

張貼留言

Ubuntu-Journalctl查看系統日誌

 近期所使用Ubuntu系統24小時開著,進行跑Python程式使用,但跑個2~3天,排程就無法正常寄信,SSH連線也無法正常連線,經查看後為wifi連線問題,暫先使用腳本排程進行重開wifi。 以下為記錄Journalctl指令。 使用Journalctl來從系統日誌上查看看問...