Definisi
Data cleansing adalah proses analisa kualitas dari suatu data dengan cara mengubah, mengoreksi, atau menghapus data-data yang salah, tidak lengkap, tidak akurat, atau memiliki format yang salah dalam basis data guna menghasilkan data berkualitas tinggi. Data cleansing juga biasa disebut data cleaning atau data scrubbing.
Data cleansing biasa digunakan dalam sebuah organisasi yang memerlukan data-data intensif seperti perbankan, asuransi, ritel, telekomunikasi, atau transportasi. Dalam organisasi, data cleansing digunakan untuk mengoreksi data-data secara sistematis melalui algoritma sehingga dapat menghemat waktu dan biaya. Proses data cleansing terkadang dilakukan dengan perpaduan antara proses otomatisasi dan proses manual.
Data Cleaning atau Pembersihan data atau data menggosok adalah tindakan mendeteksi dan memperbaiki (atau menghapus) record korup atau tidak akurat dari mengatur catatan, tabel, atau database. Yang digunakan terutama di database, istilah ini mengacu pada identifikasi tidak lengkap, tidak benar, tidak tepat, tidak relevan dll bagian data dan kemudian mengganti, memodifikasi atau menghapus data ini kotor.
Setelah membersihkan, kumpulan data akan konsisten dengan data sejenis lainnya dalam sistem set. Inkonsistensi dideteksi atau dihapus mungkin awalnya disebabkan oleh data yang berbeda definisi kamus dari entitas yang sama di toko berbeda, mungkin telah disebabkan oleh kesalahan pengguna masuk, atau mungkin telah rusak dalam transmisi atau penyimpanan. pembersihan data berbeda dari validasi data dalam validasi yang hampir selalu berarti data ditolak dari sistem pada entri dan dilakukan pada waktu masuk, bukan pada batch data.
Proses pembersihan data aktual mungkin melibatkan menghapus kesalahan ketik atau memvalidasi dan nilai-nilai koreksi terhadap daftar dikenal entitas. validasi mungkin ketat (seperti menolak semua alamat yang tidak memiliki kode pos yang valid) atau fuzzy (seperti mengoreksi catatan bahwa secara parsial sesuai dengan yang ada, catatan diketahui).
Motivasi
Secara administratif, data yang tidak benar atau tidak konsisten dapat mengakibatkan kesimpulan palsu dan salah arah investasi pada kedua publik dan swasta skala. Misalnya, pemerintah mungkin ingin menganalisis jumlah penduduk sensus untuk menentukan daerah membutuhkan pengeluaran lebih lanjut dan investasi pada infrastruktur dan layanan. Dalam hal ini, akan sangat penting untuk memiliki akses ke data yang dapat dipercaya untuk menghindari keputusan fiskal yang salah.
Dalam dunia bisnis, data yang tidak benar dapat mahal. Banyak perusahaan menggunakan database pelanggan yang mencatat data informasi seperti informasi kontak, alamat, dan preferensi. Jika misalnya alamat yang tidak konsisten, perusahaan akan menanggung biaya kirim kembali mail atau bahkan kehilangan pelanggan.
Kualitas data
Kriteria Kualitas Data
Guna mencapai tujuan utama dilakukannya data cleansing, terdapat beberapa kriteria yang harus dicapai untuk menghasilkan data berkualitas tinggi seperti:
Akurasi: Sebuah nilai agregat atas kriteria integritas, konsistensi dan kepadatan
Integritas: Sebuah nilai agregat atas kriteria kelengkapan dan validitas
Kelengkapan: Meraih dengan memperbaiki data yang mengandung anomali
Validitas: didekati dengan jumlah data yang memuaskan batasan integritas
Konsistensi: kontradiksi Kekhawatiran dan sintaksis anomali
Keseragaman: langsung berhubungan dengan penyimpangan
Kepadatan: quotient nilai-nilai yang hilang dalam data dan jumlah total nilai yang harus diketahui
Keunikan: Terkait dengan jumlah data duplikat
Decleansing
Merupakan proses pendeteksian dan pengoreksian kesalahan dalam data. Dalam praktiknya, decleansing memiliki beberapa langkah dalam penindaklanjutannya seperti mendeteksi kesalahan sintaks (parsing), pengubahan format (data transformation), penghapusan data yang terduplikat (duplicate elimination) dan menganalisa data menggunakan hukum-hukum statistika (statistical method).
Proses Data Cleansing
Terdapat beberapa langkah dalam mempraktikan data cleansing, antara lain:
Audit data
Data diaudit dengan menggunakan metode statistika dan metode basis data agar anomali dan kontradiksi dalam basis data terdeteksi. Proses ini menentukan penggunaan paket perangkat lunak dan bahasa pemrograman yang akan digunakan untuk membangun basis data yang tepat.
Spesifikasi alur kerja
Penghapusan anomali dan kontradiksi dalam basis data dilakukan pada proses ini. Spesifikasi alur kerja ditentukan setelah proses audit data dilakukan dan proses ini sangat penting dalam menentukan hasil akhir berkualitas tinggi.
Eksekusi alur kerja
Merupakan proses yang dilakukan setelah spesifikasi alur kerja telah lengkap dan kebenarannya diverifikasi. Pelaksanaan eksekusi alur kerja harus efektif dan efisien.
Pengendalian dan proses pasca-eksekusi alur kerja
Proses pengendalian dan pasca-eksekusi alur kerja dilakukan untuk menilai dan mengevaluasi rangkaian proses yang telah dilakukan. Data yang tidak dapat diperbaiki selama pengeksekusian alur kerja dikoreksi secara manual jika memungkinkan. Hasilnya adalah siklus baru dalam proses data cleansing sehingga data tersebut masuk kembali ke proses awal data cleansing.
Metode yang populer digunakan
Parsing: Parsing pembersihan data dilakukan untuk mendeteksi kesalahan sintaks. parser Sebuah memutuskan apakah suatu string data dapat diterima dalam spesifikasi data diizinkan. Hal ini mirip dengan cara parser yang bekerja dengan tata bahasa dan bahasa.
Transformasi data: Data Transformasi memungkinkan pemetaan data dari format mereka diserahkan ke dalam format yang diharapkan oleh aplikasi yang sesuai. Ini termasuk konversi nilai atau fungsi terjemahan serta normalisasi nilai numerik agar sesuai dengan nilai-nilai minimum dan maksimum.
Gandakan Eliminasi: Gandakan deteksi membutuhkan algoritma untuk menentukan apakah data berisi duplikat representasi dari entitas yang sama. Biasanya, data diurutkan dengan kunci yang akan membawa lebih dekat entri ganda bersama untuk identifikasi lebih cepat.
Metode Statistik: Dengan menganalisis data menggunakan nilai-nilai deviasi mean, standar, jangkauan, atau algoritma clustering, adalah mungkin bagi seorang ahli untuk menemukan nilai-nilai yang tak terduga dan dengan demikian salah. Meskipun koreksi data tersebut sulit karena nilai sebenarnya tidak diketahui, hal itu dapat diatasi dengan menetapkan nilai-nilai ke nilai statistik rata-rata atau lainnya. metode statistik juga dapat digunakan untuk menangani nilai yang hilang dapat digantikan oleh satu atau lebih nilai masuk akal yang biasanya diperoleh oleh algoritma augmentasi data yang ekstensif.
Alat yang ada
Sebelum data otomatisasi komputer mengenai perorangan atau organisasi yang dipelihara dan dijamin sebagai catatan kertas, didispersikan dalam bisnis terpisah atau unit organisasi. Sistem Informasi berkonsentrasi data dalam file komputer yang berpotensi dapat diakses oleh sejumlah besar orang dan oleh kelompok-kelompok di luar organisasi.
Tantangan dan masalah
Koreksi Kesalahan dan hilangnya informasi: Masalah yang paling menantang dalam pembersihan data tetap koreksi nilai untuk menghapus duplikat dan masukan yang salah. Dalam banyak kasus, informasi yang tersedia di anomali tersebut terbatas dan tidak cukup untuk menentukan transformasi yang diperlukan atau koreksi meninggalkan penghapusan entri seperti satu-satunya solusi yang masuk akal. Penghapusan data meskipun, menyebabkan hilangnya informasi yang bisa sangat mahal jika ada sejumlah besar data dihapus.
Pemeliharaan dibersihkan Data: Data pembersihan adalah proses mahal dan memakan waktu. Jadi setelah dilakukan pembersihan data dan pengumpulan data mencapai bebas dari kesalahan, orang akan ingin menghindari pembersihan kembali data secara keseluruhan setelah beberapa perubahan nilai dalam pengumpulan data. Proses ini hanya harus diulang pada nilai-nilai yang telah berubah yang berarti bahwa garis keturunan pembersihan perlu disimpan yang efisien akan memerlukan pengumpulan data dan teknik manajemen.
Data Pembersihan di Lingkungan Terpadu Hampir: Dalam hampir Sumber terintegrasi seperti DiscoveryLink IBM, pembersihan data harus dilakukan setiap kali data itu diakses yang sangat mengurangi waktu respon dan efisiensi.
Data Cleansing Framework: Dalam banyak kasus tidak akan mungkin untuk memperoleh data lengkap pembersihan grafik untuk membimbing proses tersebut di muka. Hal ini membuat pembersihan data proses berulang-ulang yang melibatkan eksplorasi yang signifikan dan interaksi yang mungkin memerlukan kerangka kerja dalam bentuk kumpulan metode untuk mendeteksi kesalahan dan eliminasi di samping audit data. Ini dapat diintegrasikan dengan data lainnya seperti pengolahan tahap integrasi dan pemeliharaan.
Sumber ; http://en.wikipedia.org, https://visilubai.wordpress.com/2010/04/28/pembersihan-data/
Validasi Data
Validasi data, kata yang sering kita temukan jika berhubungan data. Validasi adalah pengujian kebenaran atas sesuatu. Data adalah informasi dalam bentuk yang dapat diproses oleh komputer, seperti representasi digital dari teks, angka, gambar grafis, atau suara. data bisa juga berarti keterangan atau bahan nyata yang dapat dijadikan dasar kajian (analisis atau kesimpulan). Jadi validasi dapat diartikan sebagai pengujian kebenaran atas suatu informasi atau keterangan.
Validasi data bisa dilakukan dengan dua cara, yaitu dengan aplikasi dan dengan pengamatan langsung oleh kita sendirti.
Baiklah, berikut saya berbagi sedikit pengalaman selama bekerja untuk memvalidasi data. Data yang kami kumpulkan adalah data primer yang dikumpulkan dengan kuesioner. Setelah pendataan dengan kuesioner selesai, lalu data dientri. Setelah data dientri, barulah proses validasi dilakukan.
Validasi pertama yang dilakukan adalah dengan program aplikasi. Validasi dengan menggunakan program aplikasi sangat tergantung dari berapa banyak konsistensi atau validator yang dimasukan dalam program aplikasinya. Program aplikasi akan mengikuti aturan yang dibuat pada kuesioner. Validasi dengan program aplikasi biasanya akan mendeteksi isian – isian kosong yang seharusnya diisi pada kuesioner. Misalnya, pada kuesioner kita, ada pertanyaan apa jenis kelamin responden dimana isian tersebut harus diiis, akan tetapi isian di kuesioner kosong. Nah, ini bisa dideteksi dengan validasi menggunakan progam aplikasi (ingat di programnya harus dibuatkan aturan bahwa pertanyaan jenis kelamin harus diisi). Selain itu, Program aplikasi juga dapat memvalidasi pertanyaan yang harusnya tidak ditanyakan, tetapi di kuesioner pertanyaan tersebut ada isiannya. Selanjutnya program aplikasi juga terkadang dapat mendeteksi beberapa keanehan dari data jika aturan validasi tersebut bisa dimasukan dalam program. Misalnya, di program dimasukan aturan bahwa beda umur antara anak dan ibu kandung tidak bolek di bawah 15 tahun (kita ambil kasus pendataan penduduk). Ini akan dapat dideteksi program, jika didalam entrian data terdapat anak yang beda umurnya dengan ibu kandungnya adalah kurang dari 15 tahun. Akan tetapi, ada beberapa keanehan yand tidak dapat dideteksi program aplikasi untuk saat ini. Disinilah validasi dengan metode kedua digunakan
Validasi metode kedua ini sangan tergantung dari kemampuan orang yang melakukan validasi. Maksudnya, kemampuan orang tersebut dalam menguasai suatu bidang ilmu tertentu yang berhubungan dengan data yang dikumpulkan. Untuk melihat suatu keanehan data, dapat menggunakan tabel, grafik, lihat satu per satu kuesioner juga bisa atau yang lainnya seperti box plot Okelah langsung saja ke contoh, Misalnya data yang dikumpulkan adalah data tentang usaha – usaha. Lalu, anggaplah kita melihat usaha dengan pendapatan tertinggi (sebelumnya kitas sort/urutkan pendapatan usaha usaha dengan excel). Hasilnya kita melihat usaha dengan pendapatan tertinggi memiliki jumlah tenaga kerja yang paling kecil padahal data yang kita kumpulkan adalah usaha usah yang bergerak di bidang penyedian makanan dan minumam. Secara teori usaha dengan pendapatan sebesar itu di makanan dan minuman seharusnya memiliki jumlah tenaga kerja minimal tiga kali lipat dari jumlah sekarang. Selanjutnya dicek kembali, apakah data yang dientri sudah sesuai dengan kuesioner, jika ternyata sama, di cek kembali apakah petugas pendataan salah mengisi kuesioner, atau bisa langsung menyakan ke responden bersangkutan baik dengan ditelpon atau dengan di kunjungi langsung.
GIGO – (Teknologi Informasi)
GIGO (Garbage In Garbage Out) merupakan istilah yang populer di pengolahan data, yaitu kualitas output merupakan hasil dari kualitas input. Jika sampah yang masuk maka sampah pula yang akan keluar dan sebaliknya..
Apa itu GIGO – (Teknologi Informasi)? yang dimaksud dengan GIGO – (Teknologi Informasi) adalah kata yang memiliki artinya, silahkan ke tabel. GIGO – (Teknologi Informasi) biasanya ada dalam kamus atau glossary berikut ini untuk penjelasan apa arti makna dan maksudnya.
Pengertian GIGO adalah:
Definisi |
---|
GIGO : garbage in garbage out : sampah masuk sampah keluar |
GIGO (Garbage In Garbage Out) : Sebuah peringatan bahwa tidak ada program yang menghasilkan keluaran yang sempurna apabila memakai data yang keliru. |
GIGO (Garbage In Garbage Out) : Sebuah peringatan bahwa tidak ada program yang menghasilkan keluaran yang sempurna apabila memakai data yang keliru. |
0 Response to "Prinsip pembersihan data (data cleansing), validasi, GIGO"
Posting Komentar