Bu arayüzün basit bir ocr çıktısı sunan bir arayüzden farkı, sayfayı önce ana metin ve dipnot gibi sınıflara bölmesi. Bu sayede yalnızca ana metinde veya dipnotlarda arama yapabilirsiniz. Böylece reddadeler, keyword searchlerde elde edilen sayıyı yapay bir şekilde artırmıyor.
Bu modelle Library of Congress'teki 28 eseri OCR'layarak hazırladığım, metiniçi arama yapılabilen ve bu eserlerdeki dipnotları, görselleri ve dahasını sunan arayüze aşağıdaki linkten erişebilirsiniz: https://t.co/oAmbzMROcD
(hacimli eserlerin tamamını ocrlamadım)
boş zamanlarımda hobi olarak yaptığım Osmanlı Türkçesi matbu eserler için OCR modelini açık kaynaklı olarak paylaşıyorum: https://t.co/ZiUTgZtBzT Model, %4 karakter hata oranı ve yüzde 20 kelime hata oranına sahip.
Yüzyıllar boyunca Bursa'nın siluetini şekillendiren, ancak bugün artık yerinde olmayan yüzlerce yapı yeniden görünür hâle geliyor.
Anatolia19 Dijital Beşerî Bilimler Projesi kapsamında geliştirdiğimiz Bursa Hayalet Yapılar Haritası erişime açıldı.
🔗 https://t.co/NjQH9zRtwh
@DBB_CDH elinize sağlık. bazı linklerin chatgpt'den alındığı görülüyor https://t.co/DlfTkI92p9 gibi.Mesela Akdeniz için Anonymous I, Zwei Berichte über eine Jerusalempilgerfahrt (1521)'e yukarıdaki kaynakta bir atıf bulamadım ama arayüzde kaynak olarak verilmiş. belki de ben bulamadım
@istanbulite3@voiceofhellas Helsinki şehir merkezinde birçok uyuşturucu bağımlısı evsiz görebilirsiniz. Gündüzleri şehir merkezindeki tren istasyonunda geçirenler var. Bir tanesi bana çadırda kaldığını söylemişti. Güvercinler için dikenler istasyonlarda çok yaygın ama kuşlar yine bi yere konup sıçıyor
Modelin neler vadettiğine bir örnek olarak aşağıdaki link üzerinden Eşar-ı Ziya Paşa'nın tamamının OCR'lanmış haline erişebilir ve Osmanlı alfabesiyle metin için arama yapabilirsiniz. https://t.co/MEKv4AYF9p
boş zamanlarımda hobi olarak yaptığım Osmanlı Türkçesi matbu eserler için OCR modelini açık kaynaklı olarak paylaşıyorum: https://t.co/ZiUTgZtBzT Model, %4 karakter hata oranı ve yüzde 20 kelime hata oranına sahip.
Modelin öne çıkan yanı, modern Türkçe alfabesine çeviri yerine direkt orijinal Osmanlı alfabesi üzerinden çıktı vermesi. Model açık kaynak olduğu için (ticari kullanım yasaktır) para vermeden istediğiniz kadar eseri OCR'dan geçirebilirsiniz.
Tirebolu madene tepki mitinginde konuşan köylü:
• Gelsin kurumlar bizim deremizden şöyle bir bardak su içsin. Hayvanlarımız su içince ölüyor.
• Maden çalışanları bile bizim suyu içemedi.
Giresun'da AKP Iğdır Milletvekili Cantürk Alagöz’ün madencilik faaliyetlerine karşı direnen halkın nöbet alanına giden AKP Giresun Milletvekili Nazım Elmas, tepkiler nedeniyle adeta bölgeden kaçtı
https://t.co/of6IaOq4nK
Telif kısıtlamaları nedeniyle ham metinleri doğrudan paylaşmıyorum.
Ancak bu repodaki kodla derlemi kendi bilgisayarınızda şöyle oluşturabilirsiniz
1) Yazma Eserler portalından PDF'leri indirin
2) Paylaştığım Python script'lerini çalıştırın
Yapılandırılmış XML verisi elinizde!
Yazma Eserler kurumundaki 143 eserdeki 13 milyondan fazla kelimeyi işleyerek oluşturduğum LATOC derleminin işleme kodunu açık kaynak olarak paylaştım.
15-20. yy arası 143 eseri nasıl işlediğimi ve XML formatına nasıl getirdiğimi merak edenler için: https://t.co/IefuIM09NN