WHAT'S NEW?
Loading...

Crawler dan Web Crawler Untuk Crawling data Pada Website

Crawl / Crawling mempunyai arti "Merangkak". Crawl menyimpan anotasi dalam Knowledge Graph. Sistem Web Crawler adalah sistem yang mengelilingi tempat penyimpanan data di internet dan dikumpulkan kedalam database untuk pengaturan lebih lanjut untuk dianalisis. 

 Dalam proposal Thesis nya Kancherla mendefinisikan Web Crawler adalah sejenis bot yang berjalan pada internet untuk mengumpulkan data dan menyimpan ke database untuk dianalisis dan diatur lebih lanjut. Proses Web Crawler meliputi menemukan halaman web dan mengatur sedemikian rupa sehingga mesin pencari dapat mengambil yang efisien. 

Smart Crawler berdasarkan konsep Semantic Search Engine  untuk menjelajah internet pada proposal ini dijelaskan untuk mengumpulkan halaman web dan menyimpannya dalam bentuk file teks. hal ini berdasarkan konsep Semantic Search Engine akan mengambil input hanya dalam bentuk file teks. untuk meningkatkan efisiensi engine Smart Crawler memfilter teks sebelum menyimpannya. Selain Filtering, Smart Crawler melewat (skip) crawling URL untuk file seperti file gambar atau file multimedia yang berisi data Non-tektual. Smart Crawler juga efektif mengelola dan menyimpan metadata dengan sistematis. 

Karakteristik Fitur Crawlers 

Crawler yang merangkak di internet harus memiliki fitur dasar berikut sehingga terlayani tujuan mereka, kesejahteraan server yang menyimpan data dan juga web secara keseluruhan.

1. Kekokohan (Robustness)

Web berisi loop disebut Spider Traps (Laba-laba Perangkah). yang dimaksud untuk menyesatkan   Rekursif Crawler pada domain tertentu dan tertancap dalam satu domain tunggal. Mereka                 menghasilkan infinite loop halaman web yang mengarah kemana-mana. Crawler harus tahan            terhadap perangkap tertentu. perangkap ini mungkin tidak selalu dirancang untuk menyesatkan       crawler tetapi mungkin hasil dari pengembangan web rusak.

2. Kesopanan (Politeness)

Server memiliki kebijakan mengatur ketika crawler mengunjungi mereka. kebijakan kesopanan ini harus dihormati. Sebuah server awalnya dirancang untuk melayani. Menghalagi server dapat menyebabkan pemblokiran crawler oleh server. jadi lebih baik menghormati kebijakan server.

3. Distributed

Crawler harus dapat berfungsi dalam model distribusi. itu bisa memberikan beberapa gambaran untuk dirinya sendiri bekerja secara paralel dalam koordinasi yang tepat untuk menjelajah internet secepat mungkin.

4. Terukur (Scalable)

Crawler harus terukur. Harus punya fleksibelitas untuk menambah mesin-mesin baru dan bandwith ekstra bila dibutuhkan.

5. Kinerja dan Efisiensi (Performance and Eficiency)
Penggunaan resource seperti kekuatan pemrosesan, bandwidth jaringan dan penyimpanan harus bijaksana. Faktor-faktor adalah penentuan seberapa efisien crawler.

6. Kualitas

Crawler harus dapat membedakan antara informasi yang berguna dan informasi yang tidak berguna. Server terutama melayani permintaan lain yang banyak mengandung informas yang mungkin tidak berguna. Crawler harus menyaring konten ini.

7. Kesegaran (Freshness)
Dalam banyak situasi. Crawler perlu mengcrawl kehalaman yang sama lagi untuk mendapatkan konten baru dari halaman lama. untuk alasan ini, crawler harus dapat mengcrawl halaman yang sama pada tingkat yang kurang lebih sama dengan laju perubahan informasi pada halaman. dengan demikian, crawler akan dapat memastikan bahwa konsep pada mesin pencari adalah terbaru dan relevan dengan konteks kekinian.

8. Extensible

Crawler harus dapat beradaptasi dengan meningkatnya jumlah format data yang akan ditemui pada situs web. hal ini juga perlu diadaptasi dengan protokol baru yang digunakan pada beberap server. 


Tipe dari Web Crawler Secara Umum di Klasifikasikan Kedalam 4 Tipe :

1. Fokus Crawler

Fokus Crawler adalah Web Crawler yang mendowload halaman yang berhubungan untuk topik tertentu yang diminati. mengumpulkan dokumen yang fokus dan relevan pada topik tertentu. dari caranya berkerja sering di sebut Topik Crawler. Fokus Crawler menentukan halaman yang relevan sebelum melakukan crawling halaman web. Mengestimasi halaman yang diberikan untuk topik tertentu dan bagaimana memproses. Keuntungan utama dari Focus Crawler adalah membutuhkan hardware dan resource network yang kecil dan biaya kecil. dan juga terus melakukan cek pada lalulintas jaringan (traffic network)

2. Traditional Crawler

Tradisional Crawler secara berkala mengcrawler URL yang telah di Crawling dan mengganti dokumen lama dengan dokumen baru untuk menyegarkan koleksinya. Sebaliknya, sebuah crawler tambahan merefresh secara bertahap koleksi yang telah ada dari halaman web yang telah sering dikunjungi. hal ini berdasarkan estimasi rating (tingkat) seberapa sering sebuah halaman web itu diubah. Hal ini juga menggantikan halaman lama dan kurang penting dengan halaman baru yang lebih relevan. ini memecahkan masalah fresness of data (kesegaran data). Keuntungan dari Traditional Crawler adalah data yang disedikan hanya bernilai untuk user. menghemat bandwith jaringan dan mencapai pengayaan data. 

3. Distributed Crawler 

Teknik komputasi terdistribusi adalah fondasi utama untuk mengcrawler web yang didistribusikan. Banyak crawler bekerja pada waktu yang sama ditandem dan mendistribusikan beban kerja mengcrawler web untuk mendapatkan cakupan maksimum dari internet. Pusat server mengelola komunikasi, singkronisasi node dan berkomunikasi antara bot yang berbeda. hal ini juga secara geografis didistribusikan. hal ini juga didistribusikan secara geografis. ini terutama menggunakan Page Rank Algorithm (Algoritma Peringkat Halaman) untuk meningkatkan efisiensi dan kualitas pencarian. keuntungan dari Crawler Web Terdistribusi adalah Kokoh (Robust). hal ini tahan terhadap sistem crash dan lainnya. dan dapat diadopsi untuk berbagai kebutuhan Crawler.


4. Paralel Crawler

Paralel Crawler adalah beberapa crawler berjalan pada waktu yang sama. Hal ini terdiri dari beberapa proses crawling disebut sebagai C-Procs yang dapat berjalan pada jaringan workstation. crawler paralel tergantung pada pilihan halaman dan freshness page (kesegaran halaman). sebuah crawler paralel dapat didistribusikan di lokasi geografis jauh atau berada pada jaringan lokal. Paralelisasi sistem mengcrawler sangat penting dari sudut pandang download dokumen dalam jumlah waktu yang wajar. 


Salah satu bahasa pemrograman yang digunakan untuk mengcoding sebuah Web Crawler adalah Python, karena Python memiliki fitur yang sederhana, portable, free dan open source. 



Source :


Kancherla, Vinay, 2014, A Smart Web Crawler For Concept Based Semantic Search Enggine, Sanjos State University. 

http://www.slideshare.net/iosrjce/smart-crawler-a-two-stage-crawler-for-concept-based-semantic-search-engine?from_action=save

http://www.slideshare.net/icaromedeiros/linked-data-in-use-front-in-bahia-2014?qid=4e72a7b5-65c6-416f-abb8-38f477849d37&v=&b=&from_search=17




1 komentar: Leave Your Comments