• Seperti yang telah diketahui, sumber data dw amat beragam. Tiap sumber memiliki karakteristik sendiri, yang harus melalui proses Transform agar dapat diintegrasikan.
• Perbedaan karakteristik itu meliputi hal-hal berikut:
- Perbedaan satuan data (measurement inconsistency)
- Perbedaan nama field (field name inconsistency)
- Perbedaan format penyimpanan data (encoding transformation)
- Data muncul secara redundant dari berbagai sumber
Measurement inconsistency
• Aplikasi operasional menggunakan format data yang valid untuk sistem itu sendiri, namun mungkin tidak bersesuaian dengan format data dari aplikasi operasional lain yang juga sebagai sumber data.
• Contoh :
• sebuah perusahaan instalasi infrastuktur air memiliki sistem purchasing dengan data panjang pipa dalam cm, sistem gudang dalam m, sistem monitoring dalam yard.
• SOLUSI : sebelum data di masukkan ke DW,harus ditetapkan satu standar pengkodean yang valid.
Field name inconsistency
• Nama field yang disimpan oleh masing2 aplikasi operasional dapat berbeda satu sama lain, meskipun data yang disimpan sama.
• Contoh :
• Sistem informasi kreditur menggunakan field cur_bal, sistem yang lain mungkin menggunakan nama balance, saldo, atau yang lain.
• SOLUSI : harus ada mapping yang tepat dari berbagai nama yang berbeda itu untuk penetapan nama yang standar saat di pindah ke dw.
Encoding transformation
• Aplikasi operasional dapat menggunakan kode penyimpanan data sendiri , seperti data jenis kelamin.
• Contoh :
• Sistem informasi manajemen menggunakan kode L dan P, sistem pegawai menggunakan kode 1 dan 0, sistem penggajian menggunakan P dan W.
• SOLUSI : harus ada penetapan kode penyimpanan saat di pindah ke dw.
Redundant data
• Data yang sama lintas sistem aplikasi harus ditentukan standar nya, lalu di merge , karena hanya satu mirror data yang akan digunakan.
Tipe load data
• Ada tiga tipe transfer data dari sistem transaksional /operasional ke data warehouse:
- Archival data
- Data yang ada di lingkungan operasional
- Perubahan, update dari snapshot terakhir.
• Tipe pertama dan kedua biasanya hanya dilakukan satu kali, yang sering dilakukan secara periodik ialah penambahan update
• Penambahan Update merupakan hal yang paling menantang dalam mengelola data, karena membutuhkan proses scanning data, yang menghilangkan data yang sudah ada pada dw atar tidak perlu di load ulang.
• Ada lima cara untuk mengurangi jumlah scan data yang harus dilakukan
Cara load data ke DW
- Berikan date stamp
File atau data yang disimpan harus di time –stamp agar proses scanning hanya akan melibatkan data setelah proses update terakhir
• PLUS : Proses scanning cepat.
• MINUS : tidak semua sistem operasional yang ada telah melakukan time-stamp pada data yang digeneratenya.
- Scan delta file
delta File ialah file yang menyimpan perubahan data atau penambahan data yang dilakukan aplikasi operasional. Sehingga data yang harus discan menjadi lebih sedikit.
• PLUS : Proses scanning cepat.
• MINUS : tidak semua sistem operasional yang ada menggunakan delta file.
- Scan Log File
Log File secara esensi berisi data yang sama dengan delta file, namun penggunaannya ialah untuk recovery sistem.dengan melakukan scan log file
• PLUS : Proses scanning relatif cepat dibanding
tanpa optimalisasi
tanpa optimalisasi
• MINUS :
– Log file dioptimalisasi untuk kepentingan sistem dan bukan untuk kepentingan aplikasi.
– Data yang disimpan di log file mungkin memiliki detail data yang lebih komplek dibanding data yang dibutuhkan DW.
- Modify Application Code
Dengan mengubah code aplikasi yang digunakan untuk menhasilkan data yang dapat langsung di load ke DW
• PLUS : meminimalkan proses transform
• MINUS :
– Sangat tidak praktis, dan mungkin tidak bisa dilakukan , karena aplikasi mungkin sudah legacy system yang tidak mudah diubah
- Snapshot comparison
dengan membandingkan snapshot sebelum dan sesudah , dapat ditentukan data yang akan diload ke dw
• PLUS : tidak ada nilai optimalisasi
• MINUS :
– Time consuming
– Resource consuming (seriring pertumbuhan data akan meningkat tajam)
Permasalahan tambahan load data
• Salah satu hal penting yang perlu dicermati ialah volume data yang akan disimpan di dw.
• Mengingat dw tidak akan menghapus data yang ada, proses “condensing data” perlu dilakukan. (mengacu kembali ke data summarization)
Data Models
• Untuk memodelkan dw, dapat digunakan berbagai bentuk pendekatan, dapat disesuaikan dengan kondisi dan kebutuhan.
• Secara umum ada 3 level untuk memodelkan data :
- High level modelling
- Mid level modelling
- Low level modelling
High level modeling
• Bentuk model merupakan hubungan entitas, sehingga disebut ERD.
Mid level modeling
• Untuk tiap subject area dari ERD, dapat dibuat Data Item Set
Low level (physical) modeling
• Model ini dikembangkan dari mid level data model dengan memperluas model untuk mengikut sertakan keys dan karakteristik fisik. Yang hasilnya sering disebut tabel relasional.
• Setelah ketiga desain tersebut selesai, masih harus diperhitungkan faktor performance (granularitas, dan partisi), dan penambahan time element.
Normalisasi dan denormalisasi
• Maksud dan tujuan Normalisasi tidak dibahas disini (sudah dipelajari di PBD, SBD).
• Yang dibahas ialah kebalikan dari normalisasi, disebut dengan denormalisasi.
• Pada aplikasi yang berjalan, dapat terlihat bahwa seiring dengan kompleksnya sistem. Tabel yang diakses sangat banyak.
Denormalisasi
Dengan menggabungkan beberapa table menjadi satu table, aktifitas I/O dikurangi.
• Pada struktur data yang telah didenormalisasi, proses insert dan update data menjadi lebih sulit, namun proses baca (read)akan menjadi lebih efisien.
• karena pada DW akan lebih dioptimalkan untuk proses baca, hal ini tidak menjadi masalah, sehingga redundansi pada struktur data DW ialah hal yang wajar jika diperlukan.
• Meskipun demikian, tidak tiap field data boleh di-redundansi-kan, hal ini dikenal dengan selective use of redundancy, perhatikan contoh
• Pada gambar berikut , adalah hasil denormalisasinya:
Metadata
• Metadata dapat dianggap sebagai data dari data.
• Berisi informasi tentang karakteristik data itu sendiri, seperti kapan dibuat, diakses, sumber, tujuan, tag , dst
• Pada data warehouse keberadaan metadata menjadi lebih penting karena memungkinkan pemanfaatan data ke tingkat yang lebih tinggi. (contoh : filtering)
• Metadata bertindak sebagai index dari konten dw, dan dapat berfungsi untuk monitoring “apa yang ada- dan dimana” pada dw
• Umumnya metadata pada dw menyimpan data berikut:
• Struktur data yang diketahui programmer
• Struktur data yang diketahui analis DSS
• Sumber data
• Proses transformasi yang dilakukan terhadap data
• Model data
• Hubungan antara model data dengan dw
• History extracts
Cyclicity of data
• Yang dimaksud ialah waktu yang diperlukan agar perubahan data operasional terlihat (masuk) kedalam dw
• Perubahan pada sistem operasional langsung terlihat, namun pada sistem dw membutuhkan waktu, tergantung dari struktur, desain dan kompleksitas, antara beberapa jam hingga beberapa hari.
No comments:
Post a Comment