Veri Kitabı 4: Yapısallık ve Şemalar

yapisallik-ve-semalar
PRO

Veri Kitabı 4: Yapısallık ve Şemalar

Modellemeden bahsettiğimize göre veriye biraz daha yakından bakabiliriz. Bir veri modeli, temel olarak dünyada var olan bir şeyleri veri olarak ifade etmek anlamına geliyor. Ama nasıl ifade edeceğiz modelimizde? Bunun kuralları var.
Veriyle uğraşan insanların pek çoğu, verinin modellenmesi üzerine çok da kafa yormaz. Çünkü uzmanlık alanları, belirli bir veri modelleme yaklaşımı üzerinedir. Bunu evrensel bir yaklaşım olarak düşünürler. Hatta düşünmezler bile, öğrendiklerinin içinde yaşarlar.
Oysa çok fazla sayıda yaklaşım vardır ve sürekli yenileri de eklenebilir bu yaklaşımlara. Günümüzde verinin öneminin giderek artması ve kullanım şekillerinin çeşitlenmesiyle bu yaklaşımların da daha fazlasıyla karşı karşıya gelmeye başladık.
Kafaları biraz netleştirmek adına önce yapısallık konusunu çözümleyelim. Veriden bahsederken günümüzde sık sık yapısal (structured), yapısal olmayan (uncstructered) ya da yarı yapısal (semi-structured) kavramlarını duyuyoruz. Bir de veri şeması konusu var.
Bu ikisi aslında bir hayli bağlantılı. Ama şemayı şimdilik bir kenara bırakalım. Önce yapısallık konusunu çözümleyelim. Tamam bunu yaparken şemalara da hafiften dokunacağız. Yapacak bir şey yok, hayat ve öğrenme böyle bir şey. Her şey tek sıraya girmiyor.
Yapısal bir veri, bir hayli kısıtlayıcı kurallara sahip olan, şekli özgür olmayan ve bu kurallara (en azından büyük ölçüde) uyan veri demektir. Mesela geleneksel veritabanı yönetim sistemleri ‘büyük ölçüde’ yapısal veriler barındırırlar.
Yapısal verinin bu haline, bir ‘şemaya’ uygun olması diye de tanım getirebiliriz. Yapısal olmayan veri ise, bunun tersidir. Yani bir şemaya uyduramazsınız o veriyi. Mesela bir video ya da ses kaydı yapısal olmayan veridir. Yakın zamana kadar bunlara veri demiyorduk bile.
Peki, yarı yapısal ne oluyor bu durumda? Araştırma dediğiniz şeyi bir dakikalık Google aramasından ibaret sananlardan değilseniz, durup bir düşünün isterseniz. Ya da o kadar sabırlı değilseniz, hemen okumaya devam edebilirsiniz.
Yarı yapısala iki örnek vereyim. İlki şemalı ve şemasız verilerin bir karışımı olsun. Diyelim çok miktarda resim var. O resimlerin kendi içerikleri yapısal değil. Ama resimler üzerine yapay zekâ çalıştırdınız ve çeşitli etiketlere uygunluk durumlarını kolonlar olarak eklediniz.
Burada karışık modda bir yarı yapısal durumunuz var. Yani verilerin bir kısmı tamamen yapısal, bir kısmı ise tamamen yapısal olmayan. Birbiriyle ilintili bu verilere bir arada sahipsiniz, yani yarı yapısal olarak. Resimlerin kendileri ve onlardan çıkarılmış bilgiler.
Diğer örneği daha ‘bir arada’ yarı yapısal bir konu üzerinden vereyim. Diyelim bir IOT cihazından sinyaller alıyorsunuz. Ama bu sinyaller tip olarak farklı olabiliyor ve üstelik aynı tipte olanlarda bile kimi bilgiler bazen geliyor bazen gelmiyor.
Mesela bir ortamı izleyen bir cihazdan hem saniyelik olarak bazı veriler, hem dakikada bir başka veriler alıyorsunuz. Bir yandan da özel bir durum tetiklendiğinde ona ilişkin ayrı veriler alıyorsunuz. Bu özel durumlar da artık ne veri üretiyorsa, her zaman aynı kolonlar gelmiyor.
Bu da kendi içinde yarı yapısal bir veri sunmuş oluyor size. Geniş şemayı biliyorsunuz ama o geniş şema içinde dar bir kalıba pek sığmayan, ne zaman nasıl davranacağı belirsiz bir veri yapınız var. Bu yazıda şemalara tam giremesek de bir zemin atmış olduk. Sıra onlara da gelecek.

 

Arşivler

X