Dijital Arşiv

CubeBox, bulut teknolojilerinin kullanıldığı bir elektronik doküman yönetim ve dijital arşiv sistemidir.

CubeBox içerisinde ve CubeBox haricinde Own Office ürün grubu içerisinde yer alan Ofis belge düzenleyicileri ve görüntüleyicileri de bulunmaktadır. Bu sayede ofis belgelerinden ilave lisans gerekmeden yararlanılabilmektedir. Söz konusu Own Office ürün grubu içerisinde yer alan Word, Excel, PDF uygulamaları ile belge üst verilerden (metadata) yararlanma da en üst düzeyde sunulmaktadır. Own Office içerisinden de CubeBox klasör ve dosyalarına erişebilmekte ve belge üst verilerinden yararlanabilmektedir. CubeBox masaüstü ve Web uygulamaları da Own Office’i kullanmaktadır.

CubeBox sistemi kurumsal hafızayı oluşturmaktadır. Her ne kadar bulut teknolojilerini kullansa da sistem dahilinde bulunan veriler sadece kuruma, işletmeye ait sunucular üzeride yer almaktadır. Hatta sunucuların internete bağlantısı da olmayabilir.

Peki bulut teknolojisi nedir ve neden belge üst veriler bu kadar önem arz ediyor ?

hostinsozluk.com sitesinden bir alıntı yapalım bu noktada:

“Ulaştırma eski bakanı sayın Binali Yıldırım’ın, bulut bilişim hakkında söylediklerini hatırlayalım;

Bulut sistemi dedikleri bir şey var şimdi son zamanlarda. Herkes oraya bir şey atıyor, gelen ordan işine yarayanı alıp kullanıyor. Ben böyle anlıyorum, belki farklı bir şeydir. Artık böyle sistematik bir şey yok, abur-cubur dolduruyorsun, herkes ihtiyacını oradan alıyor ama hiç de karışmıyor. İstediğini buluyorsun. Bu bilişim işine fazla kafa yorarsan sıyırırsın. Kullanacaksın, nimetlerinden yararlanıp işini göreceksin. Kafayı taktın mı, o zaman işin kötü. Hikmetine fazla şey yapmamak lazım.”

Sayın bakanın yaptığı konuşmada kullandığı bu sözler, her ne kadar mizah malzemesi olarak kullanılmış olsa da, aslında, özellikle “bulut” kısmıyla ilgili kısmı tamamen doğru. Teknoloji alanında profesyonel olmayan bir insana, cloudcomputing’i anlatırken kullanılması gereken cümleler tam olarak bunlar.”¹

Bu konuşma içerisinde bazı anahtar kısımları alalım. Bunlar:

Sistematik olmaması
Hiç karışmaması
Herkesin yararlanması

Günümüzde hızlı bir şekilde “yapısal olmayan” veri uygulamarından yararlanılıyor. Yapısal olmaması nedir ve neden önemli ? Örneğin bir okulda öğrenci kayıtları bir veri tabanına kaydedilir ve bu maksatla veri tabanına pratik olarak kayıt yapılmasını sağlayan veya bu verilerden yararlanmayı sağlayan uygulamalar kullanılır, ancak sonuç olarak veri tabanındaki tablolara kayıtlar eklenir veya bu kayıtlar sorgulanır. Yani veri tabanında saklanan tablolar vardır. Bu tabloları hepimizin kullandığı Excel tablolarına benzetebiliriz.

Excel tablosunun sütunlarınıın sabit hali gibi düşündüğümüzde bu tür veriler “yapısal” verilerdir. Yani veri bir sütün ve satırdadır. Yapısal veriler, veriler üzerinde esnekliğimizi ortadan kaldırmaktadır. Halbuki gerçek dünyada durum böyle değildir, yapısal veriler ile gerçek dünyadaki verileri şablonlara koymak zorunda kalıyoruz. Bulut teknolojilerinin gelişmesi ile birlikte her türlü veriyi kısıt olmaksızın depolayabilmekteyiz.

Birbirinden tamamen farklı veriler aynı havuzda yer alabilmekte ve bunlar birbirine karışmamakta ve kolayca aradığımızı bulabilmekteyiz.

Peki nasıl bu veriler birbirine karışmaz hale geliyor ve bu verilere istediğimiz zaman erişebiliyoruz ? Bu noktada üç alternatif karşımıza çıkıyor:

Veri madenciliği
İçerikten yararlanma
Belge üst verileri

Bunlardan ilki zaten ikinci ve üçüncü seçeneklerde de kullanılmaktadır.

Veri madenciliği ve içerikten arama daha pahalı bir yaklaşımdır ve fazla depolama alanına ihtiyaç gösterir. Her üç seçeneği de birlikte kullanmak en doğru çözümdür. Örneğin matbuu formlardan kredi kartı sözleşmesini ele alalım. Bu tür sözleşmelerde müşterinin doldurduğu bilgilerin yanı sıra her sözleşme formunda yer alan sabit cümleler bulunur. Bu tür formları içerikte aranabilir hale getirmek hatalıdır, çünkü gereksiz bir şekilde sabit ifadeler ve cümleler milyonlarca formda yer aldığı gibi depolama alanında da yer kaplayacaktır. Bunun yerine metadata yani belge üst verilerinden yararlanılır. Bu örnekte olduğu gibi sadece müşteriye ait bilgiler belgenin metadata bölümünde yer alır.

Çeşitli işletim sistemlerinde ortak olarak bir çok tipte dosyalar kullanılmaktadır. Bu dosyalardan yaygın olarak kullanılanlar Word, Excel, PDF, PNG, JPEG, AVI, MP3, MP4, MOV, PPT, AutoCAD vb. Bir çok dosya türünde metadata bulunmaktadır. Dijital arşiv sistemlerinde ise PDF/A tipinde dosyalar kullanılmaktadır.

Foxit, Adobe gibi PDF görüntülerin tamamı metadata verilerini de gösterebilmekte ve bir çok PDF düzenleyiciler metadata tanımlanabilmesine olanak sağlamaktadır.

Bulut teknolojilerini kullanmayan dünyadaki pek çok dijital arşiv veya elektronik doküman yönetim sistemi de metadata kullanmaktadır. Ancak çoğunda metadata SQL tablolarında yer alır. Bir başka ifade ile kalıplara dökülür, yapısaldır. SQL tablolarında metadata kullanımının getirdiği sakıncalar:

Yapısaldır, katı kalıplar içerir veya metadata tanımlamaları karmaşıktır.
Dosyalar depolama alanında veya dosya yönetim sistemine benzer ortamlarda iken metadata SQL tablosunda yer aldığı için zamanla dosya ve metadata arasındaki ilişki kopabilir. Bir kısım sistemlerde ise BLOB yani binary olarak dosyalar veritabanı tablosunda bulunur.
Veri kayıpları özellikle dosyaların taşınması gerektiğinde ortaya çıkar, dosyaları tasnif etmek gerekir.
Kütüphanecilik veya dijital arşiv uygulamarında standart metadata kullanılmasını gerektirir. Özel metadata için karmaşık işlemler gerekir.

1 https://www.hostingsozluk.com/cloud-bulut/bulut-bilisim-cloud-computing/

ABBYY FineReader OCR

ABBYY FineReader Dijitalleştirme

ABBYY en kolay dijital arşiv