| Information Retrieval |
|
|
|
| Written by admin2 | |||||||
| Friday, 01 May 2009 07:45 | |||||||
|
Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Berdasarkan referensi dijelaskan bahwa Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam IRS. Teknik pengembangan formula query (improving query formulation) dalam Information Retrieval terdiri dari 2 cara, yaitu: query expansion methods dan query reweighting method. Dalam kasus Tugas Akhir ini digunakan query expansion methods dimana query awal inputan user diperluas dengan terms baru atau dengan kata lain user diberi masukan berupa additional terms. Model yang terdapat dalam Information Retrieval terbagi dalam 3 model besar, yaitu: 1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. 2. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI). 3. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarian query yang diinputkan user.
Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya. Tahap-tahap yang terjadi pada proses indexing ialah: 1. Word Token Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase. 2. Stopword Removal Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya. 3. Stemming Proses mengubah suatu kata bentukan menjadi kata dasar. 4. Term Weighting Proses pembobotan setiap term di dalam dokumen.
Search subsystem (matching) merupakan proses menemukan kembali informasi (dokumen) yang relevan terhadap query yang diberikan. Tidak semua dokumen yang diambil (retrieved) oleh system merupakan dokumen yang sesuai dengan keinginan user (relevant). Gambar dibawah ini menunjukkan hubungan antara dokumen relevan, dokumen yang terambil oleh system, dan dokumen relevan yang terambil oleh system:
Pengukuran Performansi Information Retrieval System Nilai performansi dari aplikasi IR menunjukkan keberhasilan dari suatu IRS dalam mengembalikan informasi yang dibutuhkan oleh user. Untuk mengukur performansi dari IRS, digunakan koleksi uji. Koleksi uji terdiri dari tiga bagian, yaitu koleksi dokumen, query, dan relevance judgement. Koleksi dokumen adalah kumpulan dokumen yang dijadikan bahan pencarian oleh sistem. Relevance judgement adalah daftar dokumen-dokumen yang relevan dengan semua query yang telah disediakan. Parameter yang digunakan dalam performansi sistem, antara lain[2]: 1. Precision (ketepatan) Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh dokumen yang terambil 2. Recall (kelengkapan) Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem). recall = Jumlah dokumen yang relevan dengan query dan terambil sistem. jumlah seluruh dokumen relevan dalam koleksi dokumen 3. Interpolate Average Precision (IAP) Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking dapat dilakukan dengan melakukan interpolasi antara precision dan recall. IAP akan mencatat semua Semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya. Nilai precision untuk semua titik ditentukan oleh perubahan nilai recall yang terjadi. Nilai precision berubah pada saat nilai recall berubah naik. Precision disatu titik recall tertentu adalah maksimal precision untuk semua titik recall yang lebih kecil dari titik tersebut. Sebagai contoh, suatu IRS mendapatkan 10 dokumen berdasarkan suatu query dengan urutan sebagai berikut D1, D2, D3, D4, D5, D6, D7, D8, D9, dan D10. Dokumen yang relevan dalam koleksi dokumen berdasar query tersebut ialah D2, D4, D7, D13, dan D20, maka nilai precision dari sistem tersebut ialah 3/10 = 0.3, sedangkan nilai recall nya ialah 3/6 = 0.5. TAUFIK MUSTAQIM_113040024 Analisis Dan Implementasi Penerapan Algoritma Genetika Pada Information Retrieval Analysis And Implementation Of Applying Genetic Algorithm In Information Retrieval IT TELKOM
Powered by !JoomlaComment 3.26
3.26 Copyright (C) 2008 Compojoom.com / Copyright (C) 2007 Alain Georgette / Copyright (C) 2006 Frantisek Hliva. All rights reserved." |
|||||||
| Last Updated ( Tuesday, 12 May 2009 04:02 ) | |||||||








