Kualitas
data
Data berkualitas tinggi harus lulus satu
set kriteria kualitas, antara lain :
1. Validitas:
Tingkat di mana ukurannya sesuai dengan
aturan atau batasan bisnis yang ditetapkan (lihat juga Validitas (statistik)).
Ketika teknologi database modern digunakan untuk merancang sistem pengambilan
data, validitas cukup mudah untuk memastikan: data yang tidak valid muncul
terutama dalam konteks warisan (di mana kendala tidak diimplementasikan dalam
perangkat lunak) atau di mana teknologi pengambilan data yang tidak pantas
digunakan (misalnya, spreadsheet, di mana sangat sulit untuk membatasi apa yang
pengguna pilih untuk masuk ke dalam sel, jika validasi sel tidak digunakan).
Kendala data masuk ke dalam kategori
berikut:
a) Batasan
Tipe Data
mis., Nilai dalam kolom tertentu harus
berupa tipe data tertentu, misalnya, Boolean, numerik (bilangan bulat atau
nyata), tanggal, dll.
b) Kendala
Rentang
biasanya, angka atau tanggal harus berada
dalam kisaran tertentu. Artinya, mereka memiliki nilai minimum dan / atau
maksimum yang diizinkan.
c) Batasan
Wajib
Kolom tertentu tidak boleh kosong.
d) Batasan
Unik
Bidang, atau kombinasi bidang, harus unik
di seluruh kumpulan data. Misalnya, tidak ada dua orang yang dapat memiliki
nomor jaminan sosial yang sama.
e) Batasan
Set-Keanggotaan
Nilai untuk kolom berasal dari satu set
nilai atau kode yang berbeda. Misalnya, jenis kelamin seseorang mungkin Wanita,
Pria atau Tidak Dikenal (tidak direkam).
f) Batasan
asing-kunci
Ini adalah kasus yang lebih umum dari
keanggotaan yang ditetapkan. Kumpulan nilai dalam kolom didefinisikan dalam
kolom tabel lain yang berisi nilai unik. Sebagai contoh, dalam database wajib
pajak Indonesia, kolom "provinsi" diperlukan untuk menjadi bagian
dari negara yang ditetapkan oleh Indonesia: kumpulan provinsi yang diizinkan
dicatat dalam tabel Provinsi yang terpisah. Istilah kunci asing dipinjam dari
terminologi basis data relasional.
g) Pola
ekspresi reguler
Terkadang, bidang teks harus divalidasi
dengan cara ini. Misalnya, nomor telepon mungkin perlu ired untuk memiliki pola (999) 999-9999.
2. Validasi
lintas-bidang
Kondisi tertentu yang memanfaatkan beberapa
bidang harus dipegang. Misalnya, dalam kedokteran laboratorium, jumlah komponen
sel darah putih diferensial harus sama dengan 100 (karena semuanya persentase).
Dalam database rumah sakit, tanggal pasien pulang dari rumah sakit tidak boleh
lebih awal dari tanggal penerimaan.
3. Keaslian
Tingkat kesesuaian ukuran untuk standar
atau nilai yang sebenarnya - lihat juga Akurasi dan presisi. Keakuratan sangat
sulit dicapai melalui pembersihan data dalam kasus umum, karena memerlukan
akses ke sumber data eksternal yang mengandung nilai yang sebenarnya: data
"standar emas" seperti itu sering tidak tersedia.
Akurasi telah dicapai dalam beberapa
konteks pembersihan, khususnya data kontak pelanggan, dengan menggunakan basis
data eksternal yang cocok dengan kode pos ke lokasi geografis (kota dan negara
bagian), dan juga membantu memverifikasi bahwa alamat jalan dalam kode pos ini
benar-benar ada.
4. Lengkap
Derajat yang semua langkah yang diperlukan
diketahui. Ketidaklengkapan hampir tidak mungkin untuk diperbaiki dengan
metodologi pembersihan data: seseorang tidak dapat menyimpulkan fakta-fakta
yang tidak ditangkap ketika data yang dipertanyakan pada awalnya direkam.
(Dalam beberapa konteks, misalnya, data wawancara, dimungkinkan untuk
memperbaiki ketidaklengkapan dengan kembali ke sumber asli data, yaitu,
mewawancara ulang subjek, tetapi bahkan ini tidak menjamin keberhasilan karena
masalah penarikan - misalnya, dalam wawancara untuk mengumpulkan data tentang konsumsi
makanan, tidak ada yang mungkin ingat persis apa yang dimakan enam bulan yang
lalu.
Dalam kasus sistem yang mengharuskan kolom
tertentu tidak boleh kosong, orang dapat mengatasi masalah dengan menunjuk
nilai yang menunjukkan "tidak diketahui" atau "hilang",
tetapi penyediaan nilai-nilai default tidak menyiratkan bahwa data telah dibuat
lengkap.
5. Konsistensi
Tingkat di mana satu set langkah-langkah
yang setara di seluruh sistem (lihat juga Konsistensi). Inkonsistensi terjadi
ketika dua item data dalam kumpulan data saling berkontradiksi: misalnya,
pelanggan dicatat dalam dua sistem yang berbeda sebagai memiliki dua alamat
yang berbeda saat ini, dan hanya satu dari mereka yang bisa benar. Memperbaiki
inkonsistensi tidak selalu mungkin: ia memerlukan berbagai f strategi -
misalnya, memutuskan data mana yang direkam baru-baru ini, sumber data mana
yang paling dapat diandalkan (pengetahuan terakhir mungkin khusus untuk
organisasi tertentu), atau hanya mencoba menemukan kebenaran dengan menguji
kedua item data (misalnya, memanggil pelanggan) .
6. Uniformity
Tingkat yang menetapkan ukuran data
ditetapkan menggunakan satuan ukuran yang sama di semua sistem (lihat juga
Satuan ukuran). Dalam kumpulan data yang dikumpulkan dari lokal yang berbeda,
berat dapat dicatat dalam pound atau kilo, dan harus dikonversi ke ukuran
tunggal menggunakan transformasi aritmatika. Integritas istilah mencakup
akurasi, konsistensi dan beberapa aspek validasi (lihat juga integritas data)
tetapi jarang digunakan dengan sendirinya dalam konteks pembersihan data karena
tidak cukup spesifik. (Misalnya, "integritas referensial" adalah
istilah yang digunakan untuk merujuk pada penegakan batasan foreign-key di
atas.)
References
Wu, S. (2013), "A review on coarse
warranty data and analysis", Reliability Engineering and System, 114:
1–11, doi:10.1016/j.ress.2012.12.021
Nigrini, M. Forensic Analytics: Methods and
Techniques for Forensic Accounting Investigations, Wiley. 2011
The importance of data cleansing
user-generated-content
Kimball, R., Ross, M., Thornthwaite, W.,
Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing,
Inc., 2008. ISBN 978-0-470-14977-5
Olson, J. E. Data Quality: The Accuracy
Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5
No comments:
Post a Comment
Silakan berkomentar ....