Viết ứng dụng đơn giản Tesseract OCR bằng Java

Post Reply
khanhlv
Posts: 4
Joined: Tue Apr 16, 2019 4:25 pm

Viết ứng dụng đơn giản Tesseract OCR bằng Java

Post by khanhlv »

Tuy cái này cũ lắm rồi, công nghệ cũng chẳng có gì mời, nhưng đôi khi vẫn có thể sử dụng cho những bài toán đơn giản ví dụ tác thông tin chứng mình thư, số công tơ điện, công tơ ước ….

Hãy cùng xem một ví dụ rất đơn giản về OCR được triển khai trong Java.

Bước 1: Download tessdata[eng.traineddata]

Bước 2: Lấy hình ảnh muốn bóc tách lấy chữ
Image

Bước 3: Thêm dependency vào tệp pom.xml

Code: Select all

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j</artifactId>
	<version>3.2.1</version>
</dependency>
Bước 4: Viết đoạn mã thực hiện OCR

Code: Select all

package tess.test.TestTesseract;

import java.io.File;

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Test {
 public static void main(String []args) {
	 Tesseract tesseract = new Tesseract();
	 try {
		tesseract.setDatapath("D:/DataScienceCollection/Jars/tessdata");
		String text = tesseract.doOCR(new File("D:/DataScienceCollection/Images/digit.jpg"));		
		System.out.print(text);
	 } catch (TesseractException e) {		
		e.printStackTrace();
	}
 }
}
Bước 5: Chạy thôi nào

P/S: Bạn có thể dùng Google Vision API để bóc tách, dữ liệu sẽ trả về dạng REST JSON.

Tham khảo:
https://codethoi.com/posts/ung-dung-don ... bang-java/

Post Reply