Struktur data warehouse


       Dengan penggunaan dw, seorang analis dss dapat lebih mudah untuk melakukan analisa dibandung dengan lingkungan database operasional, karena ada satu sumber data tunggal yang terintegrasi dengan dasar reusability yang baik.
       Dw harus dapat digunakan untuk penggunaan yang berbeda-beda, termasuk untuk requirement masa depan
       Sebuah dw yang ideal memiliki karakteristik:
  1. Berorientasi subjek
  2. Terintegrasi
  3. Non volatil
  4. Time variant - Memiliki rentang waktu (history)

Karakteristik DW – orientasi

       Tiap subject pada DW diimplementasi secara fisik pada tabel yang berhubungan dengan jumlah yang bisa amat  besar (hingga ratusan table)
       Media penyimpanan dapat berbeda beda, umumya data yang lama akan disimpan pada media dengan akses lebih lambat

       Data-data dengan subject yang sama akan dihubungkan dengan sebuah id pada tiap table
 
Karakteristik DW- integrasi

       Karakteristik lain dari DW ialah terintegrasi.
       Dari semua aspek yang lain, integrasi merupakan hal yang paling penting dalam dw.
       Data didapatkan dari berbagi sumber yang terpisah menjadi sebuah DW.
       Data tersebut akan dikonversi, di format, di-resequence, di summarisasi, sehingga menjadi data “image” dari perusahaan tersebut.

Karakteristik DW : non volatile

       Yang dimaksud dengan non volatil disini berbeda dengan non volatil pada media penyimpanan.
       Maksud non volatil disini ialah pola penambahan, dan pemanfaatan data pada dw.
       Data operasional diakses secara reguler per record.
       Data operasional juga sering diupdate.
       Data pada DW umumnya di load (diisi) secara massal
       Data pada DW tidak di-update seperti pada data operasional, namun dibuat sebagai “snapshot” dengan format statis. Sehingga memiliki data sejarah.
       Data pada DW di-optimasi untuk access secara massal (besar)


Karakteristik DW : time variant

       Time variant mengimplikasikan bahwa tiap unit data pada dw ialah akurat  pada rentang waktu tertentu.
       Data bisa di “tandai” dengan waktu, atau tanggal transaksi. Atau bentuk “tanda” lain yang menginformasikan kapan data tersebut akurat.
       Lingkungan yang berbeda akan memiliki rentang waktu yang berbeda (time-horizon : rentang waktu data direpresentasikan dalam sistem)
       Pada sistem operasional, time horizon yang umum berkisar antara 60-90 hari.
       Pada sistem DW, time horizon yang umum ialah 5-10 tahun.
       Sebagai hasilnya, dw memiliki lebih banyak sejarah dibanding lingkungan sistem lain.

       Tiap tabel akan dilengkapi dengan informasi yang berkaitan dengan waktu yang menunjukkan validitas data

Struktur DW

       Dw memiliki struktur umum seperti pada gambar
       data yang lama  umumnya diletakkan pada media bulk karena lebih jarang diakses.

Granularity

       Telah diketahui bahwa data yang disimpan pada DW berbeda dengan data pada sistem operasional.
       Salah satu perbedaan utama ialah sifat granularity(granularitas) data.
       granularity menunjukkan tingkat kedalaman (detail) dari sebuah atau kumpulan data.

       Granularity merupakan permasalahan utama dalam mendesain dw, karena mempengaruhi ukuran (volume) data yang disimpan, dan jenis query yang bisa dilakukan.
       Volume data berbanding terbalik dengan tipe query dan detail query yang bisa dilakukan: semangkin rendah granularity, maka semangkin detail query bisa diberikan.  Semangkin tinggi granularity, semangkin sederhana query yang bisa diberikan.
       Pada umumnya data yang masuk ke dw terlalu rendah granularity nya, sehingga desainer dw harus menghabiskan banyak waktu untuk memecah data, dan memformat data sesuai spesifikasinya.
       Penentuan tingkat granularity harus dilakukan di awal desain dw, karena dampaknya pada pemanfaatan, volume, dan komplexitas dw itu sendiri
       Kadang-kadang diambil jalan tengah berupa data yang lightly-summarized

       Berikut ialah referensinya

Partisi data

       Partisi data mengacu pada pemecahan data menjadi berbagai unit fisik yang bisa di manjemen secara independen.
       Dalam dw, partisi data bersifat wajib, yang perlu didesain secara teliti dan tepat.
       Keuntungan penggunaan partisi ialah kemudahan melaksanakan proses berikut (karena ukuran yang lebih kecil):
1.       Restructuring
2.       Indexing
3.       Sequential scanning,
4.       Reorganization
5.       Recovery
6.       Monitoring
       Data dapat dibagi berdasarkan kaidah berikut:
1.       Tanggal (waktu)
2.       Sifat bisnis
3.       Geografis
4.       Kelompok organisasional
5.       Semua yang diatas, atau kriteria lain

Struktur Data DW

       Berikut adalah contoh struktur data DW secara umum, yang bersifat simple cumolative.
       Data operasional di summary kan lalu disimpan ke dw, misalnya per hari.
       Contoh lain bersifat rolling summary
       Dimana summary per hari akan disummarykan perminggu-per bulan-per tahun,
       tidak ada data summary per hari jika sudah disummary per bulan, dst
Perbandingan model summary


Homogenitas dan heterogenitas
·         Sekilas, dw terlihat homogen, karena semua recordnya menyatu.
·         Sebenarnya dw bersifat heterogen, dimana data dalam dw dibagi dalam subject area.
·         Pada gambar, terlihat bahwa ada subject area berupa Product, Customer, Vendor, dan Transaction.

·         Setiap subject area terdiri dari berbagai table yang terhubung satu sama lain dengan key

Data purging(membuang)

·         Umumnya pada dw tidak dilakukan purging data (pembuangan data) kecuali untuk kasus khusus (keputusan organisasi).
·         Data data yang lama umumnya diproses dengan metode :
·         Data ditambahkan dalam model rolling summary (detail hilang)
·         Data ditransfer ke media bulk (tape drive, media backup lain)dari media akses cepat (Harddisk)
·         Data ditransfer ke arsitektur lain.

2 comments: