Optik Karakter Tanıma (OCR) nedir

OCR (Optical Character Recognition), Türkçe’de Optik Karakter Tanıma, bir görüntüdeki yazılı metinleri dijital formata dönüştürme teknolojisidir.

OCR (Optical Character Recognition), Türkçe’de Optik Karakter Tanıma, bir görüntüdeki yazılı metinleri dijital formata dönüştürme teknolojisidir. Bu teknoloji, taranmış belgeler, fotoğraflar veya diğer görüntü formatlarında yer alan metinleri tanımlayıp dijital metin olarak işleyebilir. OCR’ın başlıca kullanım alanları arasında şunlar bulunur:

Belge Dijitalleştirme: Fiziksel belgelerin dijital arşivlere dönüştürülmesi.
Metin Arama: Büyük metin dosyaları içinde kelime veya cümle arama imkanı sağlama.
Veri Girişi Otomasyonu: Formlar ve faturalar gibi belgelerden veri çekme ve veri tabanlarına aktarma.
Kitap ve Makale Dijitalleştirme: Basılı kitaplar ve makalelerin e-kitap veya dijital metin haline getirilmesi.

OCR teknolojisi, özellikle yapay zeka ve makine öğrenme algoritmalarının gelişmesiyle birlikte oldukça ilerlemiş ve el yazısını bile tanıyabilecek düzeye gelmiştir. Çeşitli OCR yazılımları, dillerin ve yazı tiplerinin geniş bir yelpazesini destekleyerek çok daha verimli ve doğru sonuçlar elde edilebilmektedir.

Python‘da OCR işlemi yapmak için yaygın olarak kullanılan bir kütüphane olan pytesseract‘ı kullanabilirsiniz. Bu kütüphane, Tesseract OCR motorunu Python üzerinden kullanmanıza olanak tanır.

Öncelikle, pytesseract ve görüntü işleme için Pillow (PIL) kütüphanesini yüklemeniz gerekiyor:

pip install pytesseract pillow

Tesseract OCR motorunu da sisteminize yüklemeniz gerekecek. Bunun için, Tesseract’ı işletim sisteminize göre yükleyin:

Windows: Tesseract indir
macOS: Homebrew kullanarak brew install tesseract
Linux: Paket yöneticisini kullanarak sudo apt-get install tesseract-ocr

Tesseract’ı yükledikten sonra, aşağıdaki Python kodu ile bir görüntüden metin çıkarabilirsiniz:

from PIL import Image
import pytesseract

# Tesseract'ın yüklü olduğu yolu belirtin (Windows için)
# Eğer tesseract kurulum yolu PATH'e eklenmişse bu satıra gerek yoktur
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# OCR yapmak istediğiniz görüntünün yolunu belirtin
image_path = 'path_to_your_image.jpg'

# Görüntüyü açın
image = Image.open(image_path)

# OCR ile metni çıkarın
text = pytesseract.image_to_string(image)

# Çıkarılan metni yazdırın
print(text)

Bu kod, belirtilen görüntü dosyasını açar ve pytesseract kullanarak görüntüdeki metni çıkarır. Sonrasında bu metni ekrana yazdırır.

Daha karmaşık OCR işlemleri için pytesseract kütüphanesinin diğer fonksiyonlarını ve parametrelerini de inceleyebilirsiniz.