7023T – Advanced Database Systems

LECTURE NOTES

Elemen Dasar Data Warehouse

Agus Widodo, B.Sc., MT [email protected]

7023T – Advanced Database Systems

LEARNING OUTCOMES Peserta diharapkan mampu mengidentifikasikan elemen dasar data warehouse . Peserta diharapkan menjelaskan perbedaan antara data mart dan data warehouse, serta elemen-elemen pendukungnya .

OUTLINE MATERI : 1. Sumber data Source System Data Staging Area 2. Pemrosesan Presentation Server Dimensional Model Business Process Data Mart Data Warehouse Operational Data Store (ODS) 3. Penyajian OLAP (On-Line Analytic Processing), ROLAP (Relational OLAP) dan MOLAP (Multidimensional OLAP) End User Application, End User Data Access Tool, dan Ad Hoc Query Tool

7023T – Advanced Database Systems

ISI MATERI 1. Elemen dasar data warehouse 1.1

Source System Sebuah sistem sumber sering disebut sebagai "sistem warisan (legacy system)" di

lingkungan mainframe. Prioritas utama dari sistem sumber adalah uptime dan ketersediaan. Query terhadap sistem sumber biasanya bersifat sederhana, dan tergantung dari aturan /batasan sistem yang ada. Sistem ini tidak akan dirancang untuk menerima query yang beragam yang biasa diberikan dalam lingkungan data warehouse. Sistem sumber biasanya juga menyimpan sedikit data historis dan manajemen pelaporan-nya sulit mengintegrasikan data yang ada. Lebih lanjut, sistem ini tidak dirancang untuk berinteraksi dengan sistem legacy yang lainnya, sehingga sering disebut sebagai stovepipe. Sistem sumber memiliki kunci yang membuat record menjadi yang unik, sebagaimana biasa terdapat dalam sistem basisdata relasional, seperti kunci produk atau kunci pelanggan. Dalam lingkungan data warehouse, kunci ini biasa disebut kunci produksi (production keys), dan biasanya diperlakukan sebagai atribut, sama seperti deskripsi tekstual lainnya. 1.2

Data Staging Area Data Staging Area merupakan area penyimpanan dan serangkaian proses untuk

membersihkan, mengubah, menggabungkan, menghilangkan duplikasi, menyimpan, dan mempersiapkan sumber data untuk digunakan dalam data warehouse. Area ini berada di antara sistem sumber dan presentation server. Meskipun akan lebih baik jika fasilitas area ini bersifat tunggal dan terpusat pada satu hardware, akan tetapi seringkali area ini tersebar pada beberapa mesin. Staging area biasanya didominasi oleh kegiatan sederhana, misalnya pengurutan dan pengolahan sekuensial. Data tidak harus bersifat relasional pada tahap ini karena pada tahap akhir akan disusun suatu sistem yang bersifat realsional terhadap data secara keseluruhan. Pada intinya, tahap ini tidak menyediakan data yang bisa diquery ataupun tampilan data sebagai laporan.

7023T – Advanced Database Systems

1.3

Presentation Server Server presentasi adalah mesin target fisik di mana data diorganisasikan dan disimpan

untuk langsung di-query oleh pengguna akhir, pembuat laporan, dan aplikasi lainnya. Menurut Kimball (1998), terdapat tiga sistem yang sangat berbeda yang diperlukan untuk data warehouse: (1) sistem sumber, (2) staging area, dan (3) dan server presentasi. Sistem sumber dapat dianggap sebagai sistem diluar data warehouse, karena data warehouse tidak memiliki kontrol atas isi dan format dari data dalam sistem warisan. Staging area dapat digambarkan sebagai tempat penyimpanan awal dan sistem pembersihan data yang akan dialirkan ke server presentasi. Dalam server presentasi inilah di mana data yang akan disajikan dan disimpan dalam kerangka dimensi. Jika server presentasi didasarkan pada database relasional, maka tabel akan diatur sebagai skema bintang (star schema). Jika server presentasi didasarkan pada teknologi nonrelational on-line analytical processing (OLAP) , maka data akan tetap memiliki dimensi yang dikenali. Sampai saat ini, sebagian besar data mart (lebih besar dari beberapa gigabyte) diimplementasikan dalam database relasional. 1.4

Dimensional Model Sebuah

model

dimensi

berisi

informasi

yang

sama

dengan

model

E/R

(Entity/Relationship), tetapi data disusun dalam format yang bertujuan agar mudah dimengerti oleh pengguna, memenuhi tuntutan kinerja, dan ketahanan untuk perubahan. Komponen utama dari model dimensi adalah fakta tabel dan tabel dimensi. Sebuah tabel fakta adalah tabel utama di masing-masing model dimensi yang dimaksudkan untuk berisi business measure (pengukuran bisnis) yang dapat diagregasikan, sehingga biasanya bersifat numerik dan aditif. Setiap tabel fakta merupakan hubungan many-to-many dan setiap tabel fakta berisi dua atau lebih foreign key yang merujuk ke table masing-masing dimensi. Sebuah tabel dimensi merupakan salah satu dari serangkaian tabel pendamping ke tabel fakta. Masing-masing dimensi didefinisikan oleh primary key yang berfungsi sebagai dasar untuk referensial integritas. Tabel dimensi kebanyakan berisi banyak atribut tekstual (fields) yang merupakan dasar untuk menghambat dan mengelompokan dalam query data warehouse.

7023T – Advanced Database Systems

1.5

Proses Bisnis Seperangkat kegiatan bisnis yang koheren yang dapat dipahami oleh pengguna

datawarehouse. Sebuah proses bisnis biasanya meliputi kegiatan seperti "pemrosesan order" atau "manajemen pelanggan" tapi bisnis proses dapat juga overlap. Jadi, suatu proses bisnis adalah pengelompokan sumber daya informasi yang berguna dengan tema yang koheren. Dalam banyak kasus, satu atau lebih data mart dapat diimplementasikan untuk setiap proses bisnis. 1.6

Data Mart Suatu data mart adalah bagian dari data warehouse secara keseluruhan. Sebuah data mart

merupakan proyek yang dapat diselesaikan daripada menjadi suatu usaha besar yang mustahil. Data mart sering dilihat sebagai pembatasan terhadap data warehouse untuk bisnis proses tertentu atau sekelompok proses bisnis terkait yang ditargetkan menuju kelompok usaha tertentu. Data mart dapat disponsori oleh dan dibangun oleh satu bagian bisnis, dan data mart biasanya diorganisir dalam satu proses bisnis tertentu. Terdapat beberapa persyaratan desain yang sangat spesifik pada setiap data mart. Setiap data mart harus diwakili oleh model dimensi dan, dalam sebuah datawarehouse tunggal, semua data mart tersebut harus dibangun dari dimensi dan fakta yang bersesuaian. Kimball (2009) tidak menganut prinsip bahwa ada dua sudut pandang "kontras" tentang data warehouse top-down vs bottom-up. Perspektif top-down yang ekstrem adalah jika database master benar-benar terpusat, dan dirancang harus terselesaikan sebelum mart data disusun. Perspektif bottom-up yang ekstrim adalah jika sebuah datawarehouse perusahaan dapat disusun dari data mart yang berbeda dan tidak saling berhubungan. Solusi yang baik adalah gabungan dari dua pendekatan tersebut, di mana kita meletakkan arsitektur di tempat yang tepat yang memandu desain semua bagian yang terpisah. Ketika semua bagian dari data mart dipecah ke tabel fisik individu pada berbagai database server, maka cara untuk menggabungkan data dari tabel yang terpisah ini untuk mencapai data warehouse yang terintegrasi adalah meyakinkan bahwa dimensi data memiliki arti yang sama pada semua tabel yang terpisah tersebut.

7023T – Advanced Database Systems

1.7

Data Warehouse Data warehouse merupakan sumber queryable data dalam perusahaan. Data warehouse

tidak lebih dari himpunan semua data mart. Data dari data warehouse berasal dari staging area. Manajer data warehouse bertanggung jawab baik untuk data warehouse dan staging area tersebut. Secara khusus, data warehouse adalah sumber daya presentasi yang queryable untuk data perusahaan dan sumber daya presentasi ini tidak harus diorganisir dengan model entityrelation karena akan menghilangkan kemudahan interpretasi dan kinerjanya. Selain itu, data warehouse sering diperbarui melalui loading secara terkontrol setelah data dikoreksi, snapshot diakumulasi, dan status dan label dirubah. 1.8

Operational Data Store (ODS)/Penyimpanan data operasional Istilah "operasional data store" pada awalnya dimaksudkan sebagai titik integrasi untuk

sistem operasional. ODS berperan penting untuk sistem legacy yang dikembangkan secara terpisah satu sama lain. Bank,misalnya, biasanya memiliki beberapa sistem independen yang dibentuk untuk mendukung berbagai produk, misalnya pinjaman, giro, tabungan, dan sebagainya. Munculnya dukungan komputer untuk teller dan ATM banyak mendorong bank untuk membuat penyimpanan data operasional untuk mengintegrasikan saldo saat ini dan history dari account yang terpisah dari satu nomor pelanggan. Karena jenis ODS ini diperlukan untuk mendukung akses dan update operasional secara konstan, maka harus ditempatkan di luar system datawarehouse. Artinya, setiap sistem disusun untuk memenuhi Dalam definisi yang kedua, tujuan ODS telah berubah dengan memasukkan unsur pendukung keputusan yang dibutuhkan baik pegawai maupun eksekutif. Dalam hal ini, karena ODS dimaksudkan untuk berisi data yang terintegrasi pada tingkat detail, maka ODS perlu dibangununtuk mendukung lapisan terbawah dari data warehouse. 1.9

Online Analytical Processing Online Analytical Processing atau disingkat OLAP adalah sebuah pendekatan yang

secara cepat menyediakan jawaban-jawaban terhadap kueri analitik yang multidimensi di dalam alam. OLAP adalah bagian dari kategori yang lebih global dari pemikiran bisnis, yang juga merangkum hubungan antara pelaporan dan penggalian data. Aplikasi khusus dari OLAP adalah

7023T – Advanced Database Systems

pelaporan bisnis untuk penjualan, pemasaran, manajemen pelaporan, manajemen proses bisnis (MPB), penganggaran dan peramalan, laporan keuangan dan bidang-bidang yang serupa. Istilah OLAP merupakan perampingan dari istilah lama yang dikenal dengan OLTP (Online Transaction Processing). Database yg dikonfigurasikan untuk pelayanan OLAP adalah model data multidimensi, yang bisa digunakan untuk analisis komplek dan kueri khusus (ad hoc) dengan suatu laju waktu eksekusi. 1.10

ROLAP (Relational OLAP) ROLAP adalah tipe OLAP yang bergantung kepada database relasional atau RDBMS

(Relational Database Management System) sebagai media penyimpanan (storage) data yang akan diolah. Dengan strategi tersebut maka OLAP Server terhindar dari masalah pengelolaan data storage dan hanya menerjemahkan proses query analysis (MDX) ke relational query (SQL). Otomatis proses optimasi ROLAP akan sangat ditentukan di sisi produk RDBMS yang digunakan misalkan dari sisi penanganan jumlah data dan strategi indexing. Cara kerja ROLAP secara umum adalah sebagai berikut : OLAP client mengirimkan query analisis ke OLAP Server. OLAP server akan melakukan pemeriksaan di cache apakah sudah bisa melayani permintaan query dari client tersebut, jika sudah akan dikirimkan. Jika pada cache belum terdapat data diminta, akan dilakukan query SQL ke data mart dan hasil eksekusinya disimpan di cache dan dikirimkan kepada client. Demikian seterusnya. Cache akan disimpan selama periode waktu tertentu dan akan dibersihkan total jika server dimatikan. 1.11

MOLAP (Multidimensional OLAP) MOLAP adalah tipe OLAP yang memiliki storage sendiri, yang isinya merupakan

precomputed agregasi data - sum, count, min, max, dan sebagainya - yang terlibat pada berbagai level detil. Storage ini berupa format yang hanya dikenali oleh MOLAP server tersebut dan telah khusus dioptimalkan untuk penggunaan oleh aplikasi tersebut.

7023T – Advanced Database Systems

Cara kerja MOLAP secara umum dibagi ke dalam dua tahap sebagai berikut : Tahap konstruksi dan populasi data, pada tahap ini sumber data akan dibaca, dilakukan perhitungan agegrasi (summary group) pada berbagai level dimensi, dan hasilnya akan disimpan di storage MOLAP. Jika objek data diperumpamakan dengan table, maka untuk satu cube akan banyak fragmen table yang isinya adalah detil agregasi dari level tertentu. Tahap query atau layanan permintaan data analisis, pada tahap ini OLAP Server akan melayani permintaan query dari client dan membaca data dari storage MOLAP. Table yang akan dibaca adalah suatu fragmen yang akan disesuaikan dengan permintaan dari client. Pada fase query ini, jika OLAP Server terputus dengan data source tidak apa-apa karena sudah tidak ada kaitannya. 1.11

Aplikasi End User Sebuah kumpulan alat yang melakukan query, menganalisis, dan menyajikan informasi

yang ditargetkan untuk mendukung kebutuhan bisnis. Alat tersebut akan terdiri dari alat akses data pengguna akhir, spreadsheet, paket grafis, dan fasilitas antarmuka pengguna untuk memunculkan prompt dan menyederhanakan presentasi layar untuk pengguna akhir. 1.12

End User Data Access Tool/ Alat akses data pengguna akhir Merupakan klien dari data warehouse. Klien ini memelihara sesi dengan server

presentasi, mengirimkan aliran permintaan SQL yang terpisah ke server. Akhirnya alat akses data pengguna akhir setelah tersambung dengan sesi SQL akan menyajikan layar data atau laporan, grafik, atau bentuk-bentuk analisis yang lebih informatif lainnya kepada pengguna. alat akses data pengguna akhir dapat berbentuk sesederhana alat query ad hoc, atau dapat lebih kompleks sebagai data mining canggih atau aplikasi pemodelan. 1.13

Ad Hoc Query Tool Sebuah jenis alat yang bisa digunakan pengguna akhir untuk membentuk permintaan

(query) dengan langsung memanipulasi tabel relasional. Alat query ad hoc ini, hanya dapat berjalan efektif jika dipahami oleh sekitar 10 persen dari semua potensi pengguna akhir dari data warehouse. 90 persen sisanya dari pengguna potensial harus dilayani oleh aplikasi pre-built yang

7023T – Advanced Database Systems

jauh lebih berupa "template" jadi yang tidak memerlukan penyusunan query relasional secara langsung dari pengguna akhir. 1.14

Aplikasi Pemodelan Semacam klien data warehouse canggih dengan kemampuan analitik yang mengubah

atau mencerna output dari data warehouse. Aplikasi pemodelan meliputi: Model peramalan yang mencoba untuk memprediksi masa depan Model scoring perilaku yang mengelompokkan dan mengklasifikasikan perilaku pembelian konsumen atau nasabah kartu kredit. Model Alokasi yang menyebarkan data biaya dari datawarehouse ke kelompok produk atau kelompok pelanggan Sebagian besar alat-alat Data Mining. 1.15

Metadata Metadata adalah informasi terstruktur yang mendeskripsikan, menjelaskan, menemukan,

atau setidaknya membuat menjadikan suatu informasi mudah untuk ditemukan kembali, digunakan, atau dikelola. Metadata sering disebut sebagai data tentang data atau informasi tentang informasi. Metadata ini mengandung informasi mengenai isi dari suatu data yang dipakai untuk keperluan manajemen file/data itu nantinya dalam suatu basis data.

7023T – Advanced Database Systems

SIMPULAN Dalam bab ini dibahas mengenai elemen data warehouse yang secara garis besar terdiri dari sumber data, pengolahan data, dan penyajian data. Secara keseluruhan elemen tersebut adalah: Source System, Data Staging Area, Presentation Server, Dimensional Model, Business Process, Data Mart, Data Warehouse, Operational Data Store (ODS), OLAP (On-Line Analytic Processing), ROLAP (Relational OLAP) dan MOLAP (Multidimensional OLAP), End User Application, End User Data Access Tool, dan Ad Hoc Query Tool.

7023T – Advanced Database Systems

DAFTAR PUSTAKA

1. Kimball, Ralph.(1998). The Data Warehouse LifecycleToolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouse. 2nd ed. Wiley Computer Publishing. ISBN, Chapter 1.

7023T - LN4 - R0.pdf

Peserta diharapkan mampu mengidentifikasikan elemen dasar data warehouse . Peserta diharapkan menjelaskan perbedaan antara data mart dan data ...

167KB Sizes 2 Downloads 161 Views

Recommend Documents

7023T - LN2 - R0.pdf
course is also to introduce the terminology and concepts of the data warehousing, which. is now the important system for business intelligence and applications.