Karakteristik sumber data dw


       Seperti yang telah diketahui, sumber data dw amat beragam. Tiap sumber memiliki karakteristik sendiri, yang harus  melalui proses Transform agar dapat diintegrasikan.
       Perbedaan karakteristik itu meliputi hal-hal berikut:
  1. Perbedaan satuan  data (measurement inconsistency)
  2. Perbedaan  nama field (field name inconsistency)
  3. Perbedaan format penyimpanan data (encoding transformation)
  4. Data muncul secara redundant dari berbagai sumber
Measurement inconsistency

       Aplikasi operasional menggunakan format data yang valid untuk sistem itu sendiri, namun mungkin tidak bersesuaian dengan format data dari aplikasi operasional lain yang juga sebagai sumber data.
       Contoh :
       sebuah perusahaan instalasi infrastuktur air memiliki sistem purchasing dengan data panjang pipa dalam cm, sistem gudang dalam m, sistem monitoring dalam yard.
       SOLUSI : sebelum data di masukkan ke DW,harus ditetapkan satu standar pengkodean yang valid.

Field name inconsistency

       Nama field yang disimpan oleh masing2 aplikasi operasional dapat berbeda satu sama lain, meskipun data yang disimpan sama.
       Contoh :
       Sistem informasi kreditur menggunakan field cur_bal, sistem yang lain mungkin menggunakan nama balance, saldo, atau yang lain.
       SOLUSI : harus ada mapping yang tepat dari berbagai nama yang berbeda itu untuk penetapan nama yang standar saat di pindah ke dw.

Encoding transformation

       Aplikasi operasional dapat menggunakan kode penyimpanan data sendiri , seperti data jenis kelamin.
       Contoh :
       Sistem informasi manajemen menggunakan kode L dan P, sistem pegawai menggunakan kode 1 dan 0, sistem penggajian menggunakan P dan W.
       SOLUSI : harus ada penetapan kode penyimpanan saat di pindah ke dw.

Redundant data

       Data yang sama lintas sistem aplikasi harus ditentukan standar nya, lalu di merge , karena hanya satu mirror data yang akan digunakan.

Tipe load data

       Ada tiga tipe transfer data dari sistem transaksional /operasional ke data warehouse:
  1. Archival data
  2. Data yang ada di lingkungan operasional
  3. Perubahan, update dari snapshot terakhir.
       Tipe pertama dan kedua biasanya hanya dilakukan satu kali, yang sering dilakukan secara periodik ialah penambahan update
       Penambahan Update  merupakan hal yang paling menantang dalam mengelola data, karena membutuhkan proses scanning  data, yang menghilangkan data yang sudah ada pada dw atar tidak perlu di load ulang.
       Ada lima cara untuk mengurangi jumlah scan data yang harus dilakukan

Cara load data ke DW

  1. Berikan date stamp
    File atau data yang disimpan harus di time –stamp agar proses scanning hanya akan melibatkan data setelah proses update terakhir
       PLUS : Proses scanning cepat.
       MINUS : tidak semua sistem operasional yang ada telah melakukan time-stamp pada data yang digeneratenya.

  1. Scan delta file
    delta File ialah file yang menyimpan perubahan data atau penambahan data yang dilakukan aplikasi operasional. Sehingga data yang harus discan menjadi lebih sedikit.
       PLUS : Proses scanning cepat.
       MINUS : tidak semua sistem operasional yang ada menggunakan delta file.

  1. Scan Log File
    Log File secara esensi berisi data yang sama dengan delta file, namun penggunaannya ialah untuk recovery sistem.dengan melakukan scan log file
       PLUS : Proses scanning relatif cepat dibanding
tanpa optimalisasi
       MINUS :
      Log file dioptimalisasi untuk kepentingan sistem dan bukan untuk kepentingan aplikasi.
      Data yang disimpan di log file mungkin memiliki detail data yang lebih komplek dibanding data yang dibutuhkan DW.

  1. Modify Application Code
    Dengan mengubah code aplikasi yang digunakan untuk menhasilkan data yang dapat langsung di load ke DW
       PLUS : meminimalkan proses transform
       MINUS :
      Sangat tidak praktis, dan mungkin tidak bisa dilakukan , karena aplikasi mungkin sudah legacy system yang tidak mudah diubah

  1. Snapshot comparison
    dengan membandingkan snapshot sebelum dan sesudah , dapat ditentukan data yang akan diload ke dw
       PLUS : tidak ada nilai optimalisasi
       MINUS :
      Time consuming
      Resource consuming (seriring pertumbuhan data akan meningkat tajam)


Permasalahan tambahan load data

       Salah satu hal penting yang perlu dicermati ialah volume data yang akan disimpan di dw.
       Mengingat dw tidak akan menghapus data yang ada, proses “condensing data” perlu dilakukan. (mengacu kembali ke data summarization)

Data Models

       Untuk memodelkan dw, dapat digunakan berbagai bentuk pendekatan, dapat disesuaikan dengan kondisi dan kebutuhan.
       Secara umum ada 3 level untuk memodelkan data :
  1. High level modelling
  2. Mid level modelling
  3. Low level modelling

High level modeling

       Bentuk model merupakan hubungan entitas, sehingga disebut ERD.

Mid level modeling

       Untuk tiap subject area dari ERD, dapat dibuat Data Item Set


Low level (physical) modeling

       Model ini dikembangkan dari mid level data model dengan memperluas model untuk mengikut sertakan keys dan karakteristik fisik. Yang hasilnya sering disebut tabel relasional.
       Setelah ketiga desain tersebut selesai, masih harus diperhitungkan faktor performance (granularitas, dan partisi), dan penambahan time element.

Normalisasi dan denormalisasi

       Maksud dan tujuan Normalisasi tidak dibahas disini (sudah dipelajari di PBD, SBD).
       Yang dibahas ialah kebalikan dari normalisasi, disebut dengan denormalisasi.
       Pada aplikasi yang berjalan, dapat terlihat bahwa seiring dengan kompleksnya sistem. Tabel yang diakses sangat banyak.


Denormalisasi
Dengan menggabungkan beberapa table menjadi satu table, aktifitas I/O dikurangi.

       Pada struktur data yang telah didenormalisasi, proses insert dan update data menjadi lebih sulit, namun proses baca (read)akan menjadi lebih efisien.
       karena pada DW akan lebih dioptimalkan untuk proses baca, hal ini tidak menjadi masalah, sehingga redundansi pada struktur data DW ialah hal yang wajar jika diperlukan.
       Meskipun demikian, tidak tiap field data boleh di-redundansi-kan, hal ini dikenal dengan selective use of redundancy, perhatikan contoh

       Pada gambar berikut , adalah hasil denormalisasinya:


Metadata

       Metadata dapat dianggap sebagai data dari data.
       Berisi informasi tentang karakteristik data itu sendiri, seperti kapan dibuat, diakses, sumber, tujuan, tag , dst
       Pada data warehouse keberadaan metadata menjadi lebih penting karena memungkinkan pemanfaatan data ke tingkat yang lebih tinggi. (contoh : filtering)
       Metadata bertindak sebagai index dari konten dw, dan dapat berfungsi untuk monitoring “apa yang ada- dan dimana” pada dw
       Umumnya metadata pada dw menyimpan data berikut:
       Struktur data yang diketahui programmer
       Struktur data yang diketahui analis DSS
       Sumber data
       Proses transformasi yang dilakukan terhadap data
       Model data
       Hubungan antara model data dengan dw
       History extracts

Cyclicity of data

       Yang dimaksud ialah waktu yang diperlukan agar perubahan data operasional terlihat (masuk) kedalam dw

       Perubahan pada sistem operasional langsung terlihat, namun pada sistem dw membutuhkan waktu, tergantung dari struktur, desain dan kompleksitas, antara beberapa jam hingga beberapa hari.


No comments:

Post a Comment