Pembersihan data atau Data Cleansing adalah
proses mendeteksi dan mengoreksi (atau menghapus) catatan yang korup atau tidak
akurat dari satu set catatan, tabel, atau basis data dan mengacu pada
pengidentifikasian bagian-bagian data yang tidak lengkap, salah, tidak akurat
atau tidak relevan dan kemudian menggantikan, memodifikasi, atau menghapus data
yang kotor atau kasar. Pembersihan data dapat dilakukan secara interaktif
dengan alat pengatur data, atau sebagai pemrosesan batch melalui scripting.
Setelah pembersihan, satu set data harus
konsisten dengan set data lain yang serupa dalam sistem. Ketidakkonsistenan
yang terdeteksi atau dihapus mungkin awalnya disebabkan oleh kesalahan entri
pengguna, oleh korupsi dalam transmisi atau penyimpanan, atau oleh definisi
kamus data yang berbeda dari entitas yang sama di toko yang berbeda.
Pembersihan data berbeda dari validasi data dalam validasi itu hampir selalu
berarti data ditolak dari sistem saat masuk dan dilakukan pada saat masuk,
daripada pada batch data.
Proses pembersihan data yang sebenarnya
mungkin melibatkan penghapusan kesalahan tipografi atau memvalidasi dan
mengoreksi nilai terhadap daftar entitas yang dikenal. Validasi mungkin ketat
(seperti menolak alamat apa pun yang tidak memiliki kode pos yang valid) atau
fuzzy (seperti mengoreksi catatan yang sebagian sesuai dengan catatan yang
sudah ada dan dikenal).
Beberapa solusi pembersihan data akan
membersihkan data dengan pemeriksaan silang dengan kumpulan data yang
divalidasi. Praktik pembersihan data umum adalah peningkatan data, di mana data
dibuat lebih lengkap dengan menambahkan informasi terkait. Misalnya,
menambahkan alamat dengan nomor telepon yang terkait dengan alamat itu.
Pembersihan data juga dapat melibatkan
kegiatan seperti, harmonisasi data, dan standardisasi data. Misalnya,
harmonisasi kode pendek (jl, kec, kab, dll.) Dengan kata-kata yang sebenarnya
(jalan, kecamatan, kabupaten, dan sebagainya). Standarisasi data adalah sarana
untuk mengubah kumpulan data referensi menjadi standar baru, misalnya,
penggunaan kode standar.
Secara administratif, data yang salah atau
tidak konsisten dapat mengarah pada kesimpulan yang salah dan investasi yang
salah arah pada skala publik dan pribadi. Misalnya, pemerintah mungkin ingin
menganalisis angka sensus penduduk untuk memutuskan daerah mana yang
membutuhkan pengeluaran dan investasi lebih lanjut untuk infrastruktur dan
layanan. Dalam hal ini, penting untuk memiliki akses ke data yang dapat
diandalkan untuk menghindari keputusan fiskal yang salah.
Di dunia bisnis, data yang salah bisa
mahal. Banyak perusahaan menggunakan basis data informasi pelanggan yang
mencatat data seperti informasi kontak, alamat, dan preferensi. Misalnya, jika
alamat tidak konsisten, perusahaan akan menanggung biaya pengiriman ulang atau
bahkan kehilangan pelanggan.
Profesi akuntansi forensik dan investigasi
penipuan menggunakan pembersihan data dalam mempersiapkan datanya dan biasanya
dilakukan sebelum data dikirim ke gudang data untuk penyelidikan lebih lanjut. Ada
paket yang tersedia sehingga Anda dapat membersihkan / mencuci data alamat saat
Anda memasukkannya ke dalam sistem Anda. Ini biasanya dilakukan melalui
antarmuka pemrograman aplikasi (API).
No comments:
Post a Comment
Silakan berkomentar ....