Klasifikasi Tweet berdasarkan Berita dengan Metode Naïve Bayes Classifier Rendy 0807646 Program Studi Ilmu Komputer Universitas Pendidikan Indonesia Jalan Dr. Setiabudi No. 229 Bandung, 40154 email: [email protected]

ABSTRAK Besarnya volume tweet yang dihasilkan setiap harinya menjadikan twitter sebagai sumber informasi yang dapat diandalkan. Perlu adanya suatu teknik khusus yang mengolah tweet tersebut agar dapat dimanfaatkan. Klasifikasi dokumen teks terhadap isi tweet adalah salah satu solusinya. Percobaan yang akan dilakukan dalam jurnal ini melibatkan 779 tweet yang diambil dari satu akun pengguna, yaitu @infobdg. Klasifikasi yang dilakukan terhadap tweet menggunakan metode Naive Bayes Classifier. Kata Kunci: Naive Bayes Classifier, Tweet, Klasifikasi.

1. PENDAHULUAN Banyaknya isi dari twitter yang biasanya disebut tweet (yang kemudian akan ditulis tweet dalam jurnal ini) menjadikan banyaknya informasi yang beredar. Informasi tersebut ada yang bermanfaat ada pula yang hanyalah sampah (junk). Klasifikasi informasi tweet akan sangat berguna bagi mereka yang mencari informasi melalui tweet karena sekarang informasi lebih mudah tersebar melalui situs seperti Twitter daripada Surat kabar sekalipun. Pencarian informasi (Information Retrieval) berbasis query sebenarnya bisa melakukan hal ini. Namun, cara ini tidaklah efisien karena pencarian informasi berbasis query berguna untuk mengetahui secara pasti kejadian yang terjadi, bukan untuk pencarian informasi yang sifatnya pendekatan. Oleh karena itu, dibutuhkanlah teknik khusus untuk membantu mencari informasi yang relevan. Salah satu metode klasifikasi yang terkenal adalah Naive Bayes Classifier (yang kemudian akan ditulis NBC). Kelebihan dari metode ini adalah tingkat akurasi yang tinggi, juga waktu komputasi yang lebih cepat. NBC adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah kelas. NBC dapat dihitung berdasarkan Teorema Bayes berikut ini:

Berdasarkan teorema di atas, B merepresentasikan sebuah kelas dan A merepresentasikan sebuah atribut. P(B) disebut prior probability B. P(A) merupakan prior probability X. P(B|A) merupakan probabilitas B benar jika A dan P(A|B) adalah probabilitas A jika B benar.

2. DASAR TEORI 2.1 Data Mining Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang tradisional tidak dapat digunakan untuk mengekstrak informasi dari data yang sangat besar. Untuk itu diperlukan suatu metode baru yang dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan metode analisis tradisional dengan algortima yang canggih untuk memproses data dengan volume besar. Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang berbeda, seperti clustering, data summarization, learning classification rules. 2.2 Tahapan Data Mining Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Adapun tahap-tahap yang dilakukan dalam data mining: a. Pembersihan Data b. Integrasi Data c. Transformasi Data d. Aplikasi Teknik Data Mining e. Evaluasi yang ditemukan f. Presentasi Pengetahuan

2.3 Teknik Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar data dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan, machine learning, statistik dan basis data. Beberapa teknik yang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining, clustering, classification. 2.3.1 Association Rule Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian. Contoh dari aturan asosiatif dari analisa pembelian di suatu minimarket adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik minimarket dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support dan confidence. Support adalah prosentase kombinasi atribut tersebut dalam basis data dan confidence adalah kuatnya hubungan antar atribut dalam aturan asosiatif. 2.3.2 Clustering Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining. Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan oleh tool data mining. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Salah satu algoritma yang terkenal untuk teknik ini adalah K-Means. 2.3.3 Classification Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat

memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk menentukan kelaskelas. Salah satu algoritma yang terkenal untuk teknik ini adalah Naive Bayes Classifier.

3. METODOLOGI Koleksi tweet diambil dari salah akun twitter, yaitu @infobdg. Jumlah tweet yang diambil dari 25 Mei 2011 sampai 3 Juni 2011 sebanyak 779 tweet. Sebelum dilakukannya tahap klasifikasi. Tahap preprocessing perlu dilakukan, yakni untuk menghilangkan kata-kata yang tidak diperlukan sehingga data yang diklasifikasi tidak berisi data sampah. Pada NBC, setiap atribut dalam tweet akan disimbolkan dengan (a1,a2,a3,...,an) dan kelas akan disimbolkan dengan C yang merupakan himpunan kategori berita (Ilmu Pengetahuan dan Teknologi, Sosial Budaya, Ekonomi, Politik, Olahraga, Lalu Lintas, Umum). (2.1)

Seperti sudah dijelaskan di atas, Teorema Bayes menyatakan: (2.2)

Dengan teorema 2.2, persamaan akan menjadi:

(2.3)

Untuk menghasilkan nilai maksimum, maka Ci harus dimaksimalkan. NBC menyederahanakan persamaan diatas dengan mengasumsikan bahwa diantara atribut (a1,a2,a3,...,an) tidak ada keterkaitan kata satu sama lain (independen), sehingga hal ini menyebabkan P(a1,a2,a3...an) menjadi konstan. Persamaan akan menjadi:

(2.4)

Disederhanakan menjadi: ∏ (

|

(2.5)

4. ALGORITMA NAIVE BAYES CLASSIFIER

Naive Bayes Classifier membagi dua tahapan klasifikasi, yaitu tahap training dan tahap klasifikasi itu sendiri. Tahap training ditujukan untuk menciptakan sebuah model Classifier guna memprediksi data test yang nanti akan dimasukkan. Dalam tahap ini, adapun training yang dilakukan adalah untuk mengetahui probablitias setiap kata muncul untuk tiap kategori yang nantinya nilai ini dipergunakan saat perhitungan pada tahap klasifikasi. Dari persamaan 2.5, yaitu: ∏ (

|

P(aj|Ci) dapat dihitung dengan pembagian jumlah kelas Ci yang memiliki aj dengan jumlah anggota Ci pada data training. (

|

nj adalah jumlah kemunculan kata aj pada kelas Ci, dan nCi adalah jumlah anggota pada kelas Ci.

5. KESIMPULAN Naive Bayes Classifier merupakan metode klasifikasi yang mudah diimplementasikan karena sederhana, juga waktu komputasi yang cepat. NBC merupakan salah satu metode yang populer digunakan untuk menyelesaikan masalah klasifikasi.

6. DAFTAR PUSTAKA [1] Wibisono, Y. Klasifikasi Berita Berbahasa Indonesia menggunakan Naive Bayes Classifier. Universitas Pendidikan Indonesia [2] Widiastuti, D. Analisa Perbandingan Algoritma SVM, Naive Bayes, dan Decision Tree dalam Mengklasifikasikan Serangan (attacks) pada Sistem Pendeteksi Intrusi. [3] Meisner, E. Naive Bayes Classifier Example. 2003. [4] I. Rish. An Empirical Study of The Naive Bayes Classifier. [5] Kusnawi. Pengantar Solusi Data Mining. Disampaikan pada Seminar Nasional Teknologi, 24 November 2007 di Yogyakarta

klasifikasi-tweet-dengan-naive-bayes.pdf

... Data Mining. Disampaikan pada Seminar Nasional. Teknologi, 24 November 2007 di Yogyakarta. Page 3 of 3. klasifikasi-tweet-dengan-naive-bayes.pdf.

217KB Sizes 12 Downloads 177 Views

Recommend Documents

No documents