WHAT'S NEW?
Loading...

Fokus Crawling

Tujuan dari web crawling adalah untuk mengumpulkan koleksi halaman web yang berguna secepat dan seefisien mungkin, sambil memberikan setidaknya fitur yang diperlukan untuk menghormati keterbatasan yang ditetapkan oleh penerbit (kesopanan) dan menghindari perangkap (ketahanan). 
Dhinakaran dan Sambanthan [7] memberikan gambaran singkat tentang empat kebijakan yang kombinasi yang mempengaruhi perilaku web crawler. Kami mewarisi dari sebuah implementasi crawler yang ada untuk menentukan kebijakan untuk mengunjungi kembali, paralelisasi, dan kesopanan.  

Kami terutama akan fokus pada pelaksanaan kebijakan pilihan baru, yaitu menentukan urutan URL baru yang ditemukan dan diproses. Kebijakan Pemilihan web crawler biasanya menggunakan variasi dari algoritma PageRank [24] dengan tujuan untuk mengumpulkan halaman yang paling populer dalam Web, karena mereka juga lebih mungkin untuk mencari. Meskipun menurut definisi semua crawler bertujuan untuk membangun koleksi yang berguna untuk tujuan tertentu, fokus crawler seperti yang dijelaskan di halaman sasaran literatur yang relevan dengan topik tertentu.crawler fokus pertama kali disebutkan oleh Menczer [20] yang dimodelkan masalah terinspirasi oleh bekerja pada agen beradaptasi dengan lingkungan yang berbeda.

Kemudian, Chakrabarti et al. menciptakan crawler jangka fokus dan memperkenalkan pendekatan menggunakan pra dilatih classifier untuk menetapkan topik-label ke URL baru berdasarkan fitur yang dapat diekstraksi dari URL itu sendiri [4]. Fitur klasifikasi lainnya telah diperoleh dengan menggunakan teknik NLP yang berbeda [13, 14, 16, 27]. Selanjutnya, Rajin et al. menggunakan informasi yang dikumpulkan dengan menggunakan mesin pencari web untuk mengumpulkan fitur tambahan untuk klasifikasi [?]. 
Aggarwal et al. Informasi dimasukkan dikumpulkan selama merangkak untuk mengarahkan arah crawler dan memaksimalkan jumlah diambil halaman yang relevan [?]. Mereka menggunakan fitur diekstrak dari isi ayah dari halaman (yaitu halaman di mana kami menemukan link), mengambil token fromunseen string URL dan fitur yang dikumpulkan dari halaman saudara (yaitu yang URL ditemukan di halaman yang sama sebagai salah satu yang akan merangkak). 

Setelah crawling halaman, kemungkinan kelompok fitur yang berbeda untuk suatu topik tertentudievaluasi dan probabilitas gabungan digunakan untuk memperbarui prioritas halaman tak terlihat.Meskipun model ini memanfaatkan fitur yang dikumpulkan selama proses merangkak, model probabilistik perlu disesuaikan secara manual terlebih dahulu, yang Chakrabati et al.mencoba untuk mengatasi ketika pertama kali memperkenalkan pendekatan klasifikasi online untuk fokus merangkak [?]. 
Chakrabarti et al. dibuat dua pengklasifikasi, satu statis, pretrained dari dimuka dikumpulkan dan ditandai corpus, dan satu online, yang digunakan untuk meningkatkan mantan keputusan berdasarkan fitur diekstraksi dari dokumen model objek, misalnya jangkar teks dalam link dari halaman merangkak. Empat tahun kemudian, Barbosa dan Freire mengambil ide utama menggabungkan informasi yang dikumpulkan selama merangkak untuk mengarahkan crawler dengan diperpanjang set fitur [?]. 
Selain konteks halaman di mana URL ditemukan, mereka membuat penggunaan grafik-struktur halaman web, misalnya dengan membedakan antara fitur langsung diambil dari ayah dan saudara kandung dari halaman, yang kemudian juga digunakan oleh Zheng et Al. [32].Meskipun mereka menggabungkan informasi yang dikumpulkan selama merangkak, mereka hanya mengganti classifier mereka dengan versi terbaru dalam batch, hanya menggunakan informasi baru yang dikumpulkan dan membuang informasi sebelumnya diekstrak.Hasil penelitian mereka menunjukkan bahwa secara berurutan diperbarui pengklasifikasi menyebabkan tingkat yang lebih tinggi dari 
mengumpulkan formulir web untuk domain topikal tertentu. Umbrich et al. mengusulkan pendekatan berbasis pola untuk mengklasifikasikan halaman, untuk menemukan jenis media tertentu di Web [30]. Jiang et al. [12] menggunakan metode yang sama untuk belajar pola URL yang mengarah ke halaman yang relevan di forum web. 
Perbedaan utama dari pekerjaan ini sehubungan dengan arus utama difokuskan merangkak adalah bahwa kita tidak bertujuan untuk melakukan klasifikasi berdasarkan topik-, melainkan melihat nilai dari halaman web dari perspektif data yang dikandungnya. halaman web yang menyajikan data terstruktur memiliki karakteristik yang unik; markup terstruktur lebih umum untuk jenis tertentu dari halaman, misalnya itemdetail halaman, dan disukai oleh situs web tertentu, biasanya besar situs yang dihasilkan secara dinamis menyajikan jenis konten tertentu.

Target kami juga berbeda dari yang perayap web semantik asli yang mengumpulkan dokumen dalam format dokumen RDF, yang mengikuti seeAlso dan sameAs referensi untuk item data yang terkait dalam rangka untuk menemukan sumber data baru terkait dan informasi.Dua contoh adalah Slug dan LDSpider [9, 11]. crawler ini berurusan dengan isu-isu spesifik terkait dengan data RDF di Web seperti dukungan untuk berbagai format RDF asli, mendukung berbagai protokol komunikasi dll Sebaliknya, pekerjaan kami berfokus pada data terstruktur tertanam di dalam halaman HTML yang baru-baru ini telah berkembang menjadi lebih populer cara mengekspos data pada Web.

Studi terbaru menunjukkan meningkatnya ketersediaan dan keragaman data terkena cara ini [2, 22], menawarkan sumber data yang tersedia secara publik luas dengan potensi besar untuk berbagai aplikasi.

0 komentar:

Posting Komentar