WHAT'S NEW?

Snap-SPARQL

Snap-SPARQL merupakan turunan dari SPARQL, query hampir sama persis seperti SPARQL hanya beberapa sintaks tambahan yang berbeda. Pluggin Snap-SPARQL sudah mendukung Protege 5.0.0 Beta 24, dan Snap-SPARQL tersedia framework (API) untuk Java.

Snap-SPARQL mendukung Reasoning, inilah yang menjadi kelebihan Snap-SPARQL dari pada SPARQL.

Untuk memahami lebih dalam tentang Snap-SPARQL bisa dibaca pada tutorial berikut ini : Snap-SPARQL : A Java Framework for Working With SPARQL & OWL

Kelebihan Semantic Web (Web Semantic)

Semantic Web (Web Semantik) adalah sebuah aplikasi web yang intuitif yang mampu untuk memindai (scan) informasi yang diperlukan secara tepat.

Kelebihan dari Semantic Web adalah sebagai berikut :

1. Prediction & Action (Prediction & Action)

Semantik web telah membuat kemungkinan prediksi dari berbagai cara, yaitu seperti operasi otomatis (automated operasion) seperti menyelesaikan semua kebutuhan untuk perjalanan seperti mengisi personal record. Semantic web dapat didefenisikan sebagai web informasi di internet dan intranet yang berisi karakteristik penjelasan yang memungkinkan untuk mengakses informasi yang tepat yang dibutuhkan.

Semantic web digunakan untuk perencanaan logistik dalam operasi militer. Militer Amerika Serikat yang pertama menerapkannya.

2. Health Care (Kesehatan) & Life Science (Ilmu Pengetahuan)

Pada bidang Health Care and Life Science semantic web digunakan untuk data dari berbagai sumber dan beberapa aplikasi karena ketidak lengkapan data tersebut.

3. Engineering Analysis (Analisis Teknik)
Pada Engineering Analisis semantic web terlibat dalam menangani data set yang rumit yang tidak terhitung jumlahnya. semantic web menawarkan keuntungan pada engineering analisis yaitu seperti berikut ini :

Data tidak akan hilang di server
Sistem Tanggal Manajemen Produk tidak mahal

Data Warehousing (DataWarehouse)

Specific Semantic Web Technology (Teknologi web semantik yang spesifik)

Menurut W3C, Semantic Web Mengizinkan data untuk di shared dan di reuse pada aplikasi yang berbeda, enterprise (perusahaan) dan berbagai komunitas.

Source :
http://www.w3schools.com/html/html5_semantic_elements.asp
http://www.brighthub.com/internet/web-development/articles/82954.aspx

GraphDB The Database For Semantic

Organisasi membangun ekosistem dari database mempertimbangkan kelengkapan data warehouse tradisional dengan solusi memanfaatkan RDF. RDF merupakan solusi standar NoSQL saat ini, karena schema-less, distributed, sangat terukur dan sempurna untuk semantik. Database yang cocok untuk pemrosesan tersebut adalah GraphDB dari Ontotext. GraphDB merupakan semantic database. GraphDB dapat diakses dan dikonek dengan data dari berbagai sumber baik Content Management System (CMS) atau internal source seperti database enterprise relasional. Untuk memahami GraphDB perlu untuk memahami database “triple” store. Triple merupakan basic atom dari data. Yang terdiri dari sebuah term yang terbentuk dari subjek-predikat-objek, seperti Jhon has a hat. Dapat didekomposisikan semua data kedalam bentuk record database khusus : person has a name. name is Jhon Smith, person has a date of birth, the date of birth is 12/04/1982.

Dalam prakteknya, arti dari semantic database adalah “triplestore”, yang dapat menyimpan dan dapat mengambil data dari database tradisional. Semua informasi dapat disimpan dalam bentuk triple (dapat dipecahkan kedalam bentuk atom dari makna). Jadi semantic database dapat menyimpan berbagai jenis data. Penyimpanan secara triple bagus untuk menyimpan text karena dapat menyimpan seluruh arti dan mengizikan untuk query.

Seperti semantic database lainnya, GraphDB digunakan untuk query bahasa SPARQL, yang mana secara khusus untuk menangani query yang besar pada database RDF atau sumber data yang berbeda. SPARQL menyediakan fungsi aggregate yang sama dengan SQL, seperti operasi analitis JOIN dan SORT, tetapi yang lebih powerful. Mungkin perbedaan terbesar dengan SPARQL adalah hubungan data yang jelas dan cara aksesnya. Hasil query SPARQL akan mengembalikan informasi yang mencerminkan pemahaman dari pengguna bukan hanya struktur dari database.

GraphDB mampu melakukan query teks dan melakukan inferencing lebih lanjut. GraphDB menerapkan aturan built-in dan custom rule set dalam mengambil data, yang menciptakan data baru secara otomatis. Sebagai contoh, yang mempertimbangkan dua fakta yaitu : Fido is a dog. A Dog is a mamal. GraphDB dapat menciptakan fakta ke tiga dengan inferencing yaitu Fido is a mamal. Hal ini dikenal dengan sebutan forward dan backward chaining. Forward chaining adalah iteratif yang menerapkan aturan untuk fakta yang diketahui. Backward chaining adalah mengambil fakta yang diberikan dan menggunakan fakta-fakta yang ada untuk membuktikan kebenarannya. Proses ini otomatis dan fakta baru dapat dikembalikan pada saat query.

Ketika statement diubah atau diekstrak, mesin secara otomatis menerapkan algoritma yang diperlukan untuk menemukan dan meng-update semua inference yang terpengaruh dan memverifikasi inference yang masih mendukung. Jenis dari reasoning yang mendukung diterapkan untuk seluruh lifecycle dari data. Hal ini sangat penting karena fakta berubah setiap waktu. Jumlah resource yang dibutuhkan secara manual mengatur update atau menjalankan ulang proses inferencing akan sulit tanpa kemampuan ini. Sejauh ini, GraphDB merupakan satu-satunya database RDF yang mendukung update inferred fakta otomatis.

Keuntungan GraphDB adalah dapat menciptakan informasi baru, sekumpulan informasi yang dapat dipercaya dan menemukan hubungan pada data yang sebelumnya tidak mungkin ditemukan. Secara langsung mengintegrasikan kemampuan tekt mining kedalam triple store. GraphDB pada dasarnya menawarkan jalur semantik untuk knowledge. Tanpa triplestore, data yang dikembalikan dari teks mining sangat sulit untuk diatur. Dan tanpa text mining, secara praktis tidak mungkin dengan cepat dan efektif mengekstrak makna dari tubuh text, karena GraphDB mengsingkronisasi teks dan data secara real time, memberikan tingkat akurasi dan konsistensi yang lebih tinggi.

GraphDB cocok untuk integrasi data dan resolusi identitas, karena kuat digunakan untuk analisis teks dan optimal untuk triplestore. Untuk menyelesaikan identitas disumber yang berbeda, GraphDB mengidentifikasi dan menciptakan referensi ke entitas, kemudian menyimpan referensi dengan cara merepresentasikan identitas duplikat salah satunya. Memungkinkan visibilitas dan akurasi yang lebih besar serta integrasi data dari beberapa sumber.

BBC menggunakan teknologi GraphDB selama piala dunia tahun 2010 untuk menyediakan framework publishing semantik dinamis, tools yang dibuat dan untuk mempublikasikan konten situs web. Institusi pemerintahan dan penelitian juga mendapatkan keuntungan dari kemampuan semantic search. Keduanya memiliki jutaan dokumen yang menjadi konten baik yang telah lalu atau yang saat ini. Bayangkan jika sebuah perusahaan farmasi mampu mencari semua komentar yang berkaitan untuk seluruh web untuk interaksi dengan obat tertentu, dan menggabungkan hasil dengan requirment FDA dan peringatan.

Salah satu aspek powerful dari GraphDB adalah inferencing. Mampu secara otomatis dan iterative menghasilkan fakta baru untuk menghasilkan resolusi query dan pencarian lebih lengkap. Dengan memperluas knowledge dan informasi diluar eksplisit data, GraphDB menyediakan pengguna untuk mampu memulai menemukan keuntungan proses, mempercepat analisis dan pengambilan keputusan.

Sebuah organisasi yang akan menggabungkan dan menerbitkan data dalam jumlah yang besar harus mempertimbangkan untuk menggunakan GraphDB. Institusi keuangan, retailer besar dan perusahaan telekomunikasi sebagian besar bergantung pada model relasional, tetapi data web dan eksternal data jadi lebih penting, kemampuan untuk mencari, mining dan mengintegrasikan kedalam sistem menjadi kebutuhan strategis. Proyek integrasi data menjadi mahal dan rumit. Solusi seperti GraphDB mengizinkan semua jenis data yang dibawa bersama menjadi akurat dan cepat dan dilakukan pada bagian kecil dari biaya biasa. Kombinasi dari dukungan inferensi, beban query parallel dan frekuensi update memberdayakan pengguna untuk mengungkapkan hubungan implisit di volume data besar yang tersebar. GraphDB benar-benar meaningful, solusi semantik end-to-end.

Source : GraphDB: At Last, The Meaningful Database (http://ontotex.com)

Sosial Semantic Web

Semantic Web telah lambat untuk menyadari potensinya karena kurangnya partisipasi pengguna dan memotivasi aplikasi, yang dapat digunakan dan dipahami oleh orang biasa. Web sosial dapat melengkapi Semantic Web dan membawanya ke realisasi praktis. Web sosial memberikan platform yang dapat dengan mudah dipahami dan digunakan oleh orang-orang biasa. Dengan memfasilitasi interaksi dan kolaborasi antara orang-orang di web sosial, konsensus dapat dicapai dan standar dapat muncul. Fenomena Web sosial telah memotivasi jutaan pengguna dengan memiliki aplikasi sederhana dan berhasil dikumpulkan volume besar data dari pengguna. Fenomena yang sama mungkin bootstrap Semantic Web dengan cukup data dan siklus aplikasi yang terkenal melanggar "ayam atau telur". Langkah pertama untuk Web Semantic adalah memiliki banyak data. Rasionalisasi data dapat dilakukan kemudian (Huynh, et al., 2007a).

Di sisi lain, Web Sosial berjalan dengan beberapa masalah karena sifat yang tidak terstruktur dan kurangnya standar semantik. Berton Pengguna yang dihasilkan tidak dapat dipahami dan diproses secara efektif oleh mesin. Selain itu, sistem yang berbeda tidak dapat beroperasi satu sama lain karena semantik tidak jelas. Semantik web dapat menyediakan struktur yang terdefinisi dengan baik untuk data pada web sosial mereka yang dapat diproses oleh mesin. Semantik web juga dapa memberikan standar yang dibutuhkan untuk interoperabilitas antara aplikasi onlin dari web sosial.

Dengan cara ini, Sosial Web dan Semantik Web dapat saling melengkapi untuk mengatasi tantangan kedua yang dihadapi dunia. kombinasi perangkat lunak sosial dengan teknologi semantik web telah mendapatkan perhatian yang signifikan baru-baru ini (Ankolekar et al, 2007;. Gruber, 2008; Schaffert, 2006), keseluruhan tentang buku ini datang dari (Blumauer & Pellegrini, 2008; Breslin et al. , In Press). dan ada sejumlah besar karya yang mencoba untuk memungkinkan pengguna biasa untuk menghasilkan "Konten" Semantik Web dengan menggunakan perangkat lunak sosial. yang dihasilkan Semantik Web Sosial dapat membantu dalam menciptakan pengetahuan kolaboratif dengan memfasilitasi partisipasi massa dan interaksi. namun, menggabungkan dua hal yang berbeda ini tidak begitu mudah. Terutama ketidak strukturan bagi orang-orang dan hal terstruktur utama untuk mesin.

Sosial Web & Web 2.0

Sosial Web dan Web 2.0 merupakan Adik dari Web 3.0 (Sering disebut Semantic Web). Sosial Web adalah semua aplikasi online dan layanan yang memungkinkan orang untuk berpartisipasi dan berkontribusi pada Web. Ini berfungsi sebagai platform bagi orang untuk terhubung satu sama lain, bersosialisasi dan berinteraksi. Hal ini membantu orang terhubung bersama dan berbagi minat yang sama. Sosial Web memfasilitasi orang untuk berbagi informasi dengan mudah dan bebas. Hal ini didorong oleh User-generated Content (User yang menciptakan konten). Kontribusi dari jutaan User di seluruh dunia menghasilkan koleksi resource yang up-to-date meskipun dibutuhkan usaha dari setiap constributor indivual. Fenomena ini didorong oleh kekuatan orang, kecerdasan kolektif (Collective Intelligent) juga dikenal sebagai kebijakan orang banyak. Sosial Web merupakan aspek yang paling membedakan dari Web 2.0. (O'Reilly, 2005).

Beberapa aplikasi Sosial Web secara umum adalah :

Blog (Wordpress & Blogger)
Wiki (Wikipedia)
Social Bookmarking (Delicious & Digg)
Multimedia Sharing Site (Youtube, Filckr & Last.fm)
Tagging (Incorporate in most social website)
Sosial Networking (Facebook & MySpce)

Keuntungan Dan Tantangan Sosial Web

Sosial Web telah menikmati sukses bersar karena teknologi yang mudah dipahami dan digunakan untuk user biasa. hal ini menyebabkan partisipasi yang luas. Selanjutnya, orang-orang menikmati aplikasi ini karena mereka dapat mengidentifikasi diri dan teman-teman mereka ke aplikasi. Namun aplikasi ini sederhana memiliki keterbatasan yang parah. Data biasanya dalam bentuk teks tidak terstruktur atau file multimedia. Isi ini dipahami oleh manusia, tetapi tidak dipahami atau diproses secara otomatias oleh mesin. Semantik dari konten tidak jelas, Tag yang sama mungkin memiliki arti yang berbeda untuk orang atau hal yang berbeda atau hal yang sama dapat ditandai dengan cara yang berbeda oleh orang yang berbeda. Oleh karena itu pengolahan dan pengambilan informasi menjadi sulit. Juga, ada kurangnya interoperabilitas antar situs sosial. untuk mengaktifkan pertukaran informasi dan interoperation antara sistem, arti dari informasi harus jelas dan dipahami oleh semua sistem. Saat ini, situs sosial menimbun banyak data dalam diri mereka sebagai silo tertutup. Dinding kebun data mungkin tampil cantik dengan pengguna pada awalnya tetapi membatasi pengguna dalam. untuk mengatasi keterbatasan ini kita perlu standar yang ditetapkan untuk berbagai jenis data yang dapat diadopsi oleh sistem online di seluruh dunia.

Collaborative Searching (Pencarian Kolaboratif)

Collaborative Search adalah pencarian yang mengasumsikan shared informasi yang dibutuhkan dan menggabungkan berapa perspektif untuk meningkatkan hasil pencarian.

Model Collaborative Search :
1. User Behaviour - Intent - Implicit VS Explisit :

Implisit :

Pengguna menyadari bahwa data lain digunakan untuk informasi pencarian
Sistem menyimpulkan similarity (kemiripan) dari informasi yang dibutuhkan
Sistem merekomendasi dokumen berdasarkan kemiripan kesimpulan
Bagus untuk menemukan apa yang telah ditemukan
Mungkin tidak efektif untuk pencarian eksplorasi (exploratory search)

Eksplisit

Pengguna secara eksplisit menyatakan shared informasi yang dibutuhkan
Sistem menggabungkan kontribusi dari kolaborator untuk menemukan informasi baru
Bagus untuk pencarian eksplorasi.

2. System Behaviour

Dept Of Mediation

Communication vs UI vs Algoritmic mediation

Syncronization

Asymmetric vs Symmetric

Communication

Orang berkomunikasi tentang tugas pencarina, tentang hasil pencarian
Baik User Interface maupun Algoritma tahu beberapa orang yang terlibat

Setiap orang menggunakan sistem independen
Sistem Retrieval unware beberapa orang

Algoritmik

kontribusi masing-masing orang dilacak secara terpisah oleh sistem pencarian
Kontribusi dapat dikombinasikan untuk menghasilkan efek retrieval yang diinginkan

Aspek bersifat kumulatif

UI juga meliputi komunikasi
mediasi algoritmik juga mungkin termasuk UI dan komunikasi

Pengaruh simetris

Data yang dihasilkan oleh satu orang yang tersedia untuk semua kolaborator untuk tugas pencarian yang sama

Cari Bersama
Cerchiamo

Pengaruh asimetris

Beberapa orang tidak melihat kontribusi dari orang lain

Rekomendasi

Sinkronisasi tidak sinkronisitas

Tidak ada implikasi ketika orang mencari
Tidak ada kebutuhan WYSIWIS
Menggambarkan ketersediaan data orang lain sehubungan dengan informasi yang perlu

Fokus Crawling

Tujuan dari web crawling adalah untuk mengumpulkan koleksi halaman web yang berguna secepat dan seefisien mungkin, sambil memberikan setidaknya fitur yang diperlukan untuk menghormati keterbatasan yang ditetapkan oleh penerbit (kesopanan) dan menghindari perangkap (ketahanan).

Dhinakaran dan Sambanthan [7] memberikan gambaran singkat tentang empat kebijakan yang kombinasi yang mempengaruhi perilaku web crawler. Kami mewarisi dari sebuah implementasi crawler yang ada untuk menentukan kebijakan untuk mengunjungi kembali, paralelisasi, dan kesopanan.

Kami terutama akan fokus pada pelaksanaan kebijakan pilihan baru, yaitu menentukan urutan URL baru yang ditemukan dan diproses. Kebijakan Pemilihan web crawler biasanya menggunakan variasi dari algoritma PageRank [24] dengan tujuan untuk mengumpulkan halaman yang paling populer dalam Web, karena mereka juga lebih mungkin untuk mencari. Meskipun menurut definisi semua crawler bertujuan untuk membangun koleksi yang berguna untuk tujuan tertentu, fokus crawler seperti yang dijelaskan di halaman sasaran literatur yang relevan dengan topik tertentu.crawler fokus pertama kali disebutkan oleh Menczer [20] yang dimodelkan masalah terinspirasi oleh bekerja pada agen beradaptasi dengan lingkungan yang berbeda.

Kemudian, Chakrabarti et al. menciptakan crawler jangka fokus dan memperkenalkan pendekatan menggunakan pra dilatih classifier untuk menetapkan topik-label ke URL baru berdasarkan fitur yang dapat diekstraksi dari URL itu sendiri [4]. Fitur klasifikasi lainnya telah diperoleh dengan menggunakan teknik NLP yang berbeda [13, 14, 16, 27]. Selanjutnya, Rajin et al. menggunakan informasi yang dikumpulkan dengan menggunakan mesin pencari web untuk mengumpulkan fitur tambahan untuk klasifikasi [?].

Aggarwal et al. Informasi dimasukkan dikumpulkan selama merangkak untuk mengarahkan arah crawler dan memaksimalkan jumlah diambil halaman yang relevan [?]. Mereka menggunakan fitur diekstrak dari isi ayah dari halaman (yaitu halaman di mana kami menemukan link), mengambil token fromunseen string URL dan fitur yang dikumpulkan dari halaman saudara (yaitu yang URL ditemukan di halaman yang sama sebagai salah satu yang akan merangkak).

Setelah crawling halaman, kemungkinan kelompok fitur yang berbeda untuk suatu topik tertentudievaluasi dan probabilitas gabungan digunakan untuk memperbarui prioritas halaman tak terlihat.Meskipun model ini memanfaatkan fitur yang dikumpulkan selama proses merangkak, model probabilistik perlu disesuaikan secara manual terlebih dahulu, yang Chakrabati et al.mencoba untuk mengatasi ketika pertama kali memperkenalkan pendekatan klasifikasi online untuk fokus merangkak [?].

Chakrabarti et al. dibuat dua pengklasifikasi, satu statis, pretrained dari dimuka dikumpulkan dan ditandai corpus, dan satu online, yang digunakan untuk meningkatkan mantan keputusan berdasarkan fitur diekstraksi dari dokumen model objek, misalnya jangkar teks dalam link dari halaman merangkak. Empat tahun kemudian, Barbosa dan Freire mengambil ide utama menggabungkan informasi yang dikumpulkan selama merangkak untuk mengarahkan crawler dengan diperpanjang set fitur [?].

Selain konteks halaman di mana URL ditemukan, mereka membuat penggunaan grafik-struktur halaman web, misalnya dengan membedakan antara fitur langsung diambil dari ayah dan saudara kandung dari halaman, yang kemudian juga digunakan oleh Zheng et Al. [32].Meskipun mereka menggabungkan informasi yang dikumpulkan selama merangkak, mereka hanya mengganti classifier mereka dengan versi terbaru dalam batch, hanya menggunakan informasi baru yang dikumpulkan dan membuang informasi sebelumnya diekstrak.Hasil penelitian mereka menunjukkan bahwa secara berurutan diperbarui pengklasifikasi menyebabkan tingkat yang lebih tinggi dari

mengumpulkan formulir web untuk domain topikal tertentu. Umbrich et al. mengusulkan pendekatan berbasis pola untuk mengklasifikasikan halaman, untuk menemukan jenis media tertentu di Web [30]. Jiang et al. [12] menggunakan metode yang sama untuk belajar pola URL yang mengarah ke halaman yang relevan di forum web.

Perbedaan utama dari pekerjaan ini sehubungan dengan arus utama difokuskan merangkak adalah bahwa kita tidak bertujuan untuk melakukan klasifikasi berdasarkan topik-, melainkan melihat nilai dari halaman web dari perspektif data yang dikandungnya. halaman web yang menyajikan data terstruktur memiliki karakteristik yang unik; markup terstruktur lebih umum untuk jenis tertentu dari halaman, misalnya itemdetail halaman, dan disukai oleh situs web tertentu, biasanya besar situs yang dihasilkan secara dinamis menyajikan jenis konten tertentu.

Target kami juga berbeda dari yang perayap web semantik asli yang mengumpulkan dokumen dalam format dokumen RDF, yang mengikuti seeAlso dan sameAs referensi untuk item data yang terkait dalam rangka untuk menemukan sumber data baru terkait dan informasi.Dua contoh adalah Slug dan LDSpider [9, 11]. crawler ini berurusan dengan isu-isu spesifik terkait dengan data RDF di Web seperti dukungan untuk berbagai format RDF asli, mendukung berbagai protokol komunikasi dll Sebaliknya, pekerjaan kami berfokus pada data terstruktur tertanam di dalam halaman HTML yang baru-baru ini telah berkembang menjadi lebih populer cara mengekspos data pada Web.

Studi terbaru menunjukkan meningkatnya ketersediaan dan keragaman data terkena cara ini [2, 22], menawarkan sumber data yang tersedia secara publik luas dengan potensi besar untuk berbagai aplikasi.

Penerapan Semantic Web Pada Web Menjadikan Web Kaya Akan Data

Dulu untuk merancang template kita harus menyimpan file-file gambar dalam sebuah folder, file coding dalam sebuah forder, dan ada beberapa file coding dengan nama-nama yang berbeda. kemudian sejak semantic web lahir dalam satu file coding kita bisa menyimpan template dan data sekaligus di file yang sama dalam bentuk metadata, jadi lebih simple dan lebih ringan.

Crawler dan Web Crawler Untuk Crawling data Pada Website

Crawl / Crawling mempunyai arti "Merangkak". Crawl menyimpan anotasi dalam Knowledge Graph. Sistem Web Crawler adalah sistem yang mengelilingi tempat penyimpanan data di internet dan dikumpulkan kedalam database untuk pengaturan lebih lanjut untuk dianalisis.

Dalam proposal Thesis nya Kancherla mendefinisikan Web Crawler adalah sejenis bot yang berjalan pada internet untuk mengumpulkan data dan menyimpan ke database untuk dianalisis dan diatur lebih lanjut. Proses Web Crawler meliputi menemukan halaman web dan mengatur sedemikian rupa sehingga mesin pencari dapat mengambil yang efisien.

Smart Crawler berdasarkan konsep Semantic Search Engine untuk menjelajah internet pada proposal ini dijelaskan untuk mengumpulkan halaman web dan menyimpannya dalam bentuk file teks. hal ini berdasarkan konsep Semantic Search Engine akan mengambil input hanya dalam bentuk file teks. untuk meningkatkan efisiensi engine Smart Crawler memfilter teks sebelum menyimpannya. Selain Filtering, Smart Crawler melewat (skip) crawling URL untuk file seperti file gambar atau file multimedia yang berisi data Non-tektual. Smart Crawler juga efektif mengelola dan menyimpan metadata dengan sistematis.

Karakteristik Fitur Crawlers

Crawler yang merangkak di internet harus memiliki fitur dasar berikut sehingga terlayani tujuan mereka, kesejahteraan server yang menyimpan data dan juga web secara keseluruhan.

1. Kekokohan (Robustness)

Web berisi loop disebut Spider Traps (Laba-laba Perangkah). yang dimaksud untuk menyesatkan Rekursif Crawler pada domain tertentu dan tertancap dalam satu domain tunggal. Mereka menghasilkan infinite loop halaman web yang mengarah kemana-mana. Crawler harus tahan terhadap perangkap tertentu. perangkap ini mungkin tidak selalu dirancang untuk menyesatkan crawler tetapi mungkin hasil dari pengembangan web rusak.

2. Kesopanan (Politeness)

Server memiliki kebijakan mengatur ketika crawler mengunjungi mereka. kebijakan kesopanan ini harus dihormati. Sebuah server awalnya dirancang untuk melayani. Menghalagi server dapat menyebabkan pemblokiran crawler oleh server. jadi lebih baik menghormati kebijakan server.

3. Distributed

Crawler harus dapat berfungsi dalam model distribusi. itu bisa memberikan beberapa gambaran untuk dirinya sendiri bekerja secara paralel dalam koordinasi yang tepat untuk menjelajah internet secepat mungkin.

4. Terukur (Scalable)

Crawler harus terukur. Harus punya fleksibelitas untuk menambah mesin-mesin baru dan bandwith ekstra bila dibutuhkan.

5. Kinerja dan Efisiensi (Performance and Eficiency)
Penggunaan resource seperti kekuatan pemrosesan, bandwidth jaringan dan penyimpanan harus bijaksana. Faktor-faktor adalah penentuan seberapa efisien crawler.

6. Kualitas

Crawler harus dapat membedakan antara informasi yang berguna dan informasi yang tidak berguna. Server terutama melayani permintaan lain yang banyak mengandung informas yang mungkin tidak berguna. Crawler harus menyaring konten ini.

7. Kesegaran (Freshness)
Dalam banyak situasi. Crawler perlu mengcrawl kehalaman yang sama lagi untuk mendapatkan konten baru dari halaman lama. untuk alasan ini, crawler harus dapat mengcrawl halaman yang sama pada tingkat yang kurang lebih sama dengan laju perubahan informasi pada halaman. dengan demikian, crawler akan dapat memastikan bahwa konsep pada mesin pencari adalah terbaru dan relevan dengan konteks kekinian.

8. Extensible

Crawler harus dapat beradaptasi dengan meningkatnya jumlah format data yang akan ditemui pada situs web. hal ini juga perlu diadaptasi dengan protokol baru yang digunakan pada beberap server.

Tipe dari Web Crawler Secara Umum di Klasifikasikan Kedalam 4 Tipe :

1. Fokus Crawler

Fokus Crawler adalah Web Crawler yang mendowload halaman yang berhubungan untuk topik tertentu yang diminati. mengumpulkan dokumen yang fokus dan relevan pada topik tertentu. dari caranya berkerja sering di sebut Topik Crawler. Fokus Crawler menentukan halaman yang relevan sebelum melakukan crawling halaman web. Mengestimasi halaman yang diberikan untuk topik tertentu dan bagaimana memproses. Keuntungan utama dari Focus Crawler adalah membutuhkan hardware dan resource network yang kecil dan biaya kecil. dan juga terus melakukan cek pada lalulintas jaringan (traffic network).

2. Traditional Crawler

Tradisional Crawler secara berkala mengcrawler URL yang telah di Crawling dan mengganti dokumen lama dengan dokumen baru untuk menyegarkan koleksinya. Sebaliknya, sebuah crawler tambahan merefresh secara bertahap koleksi yang telah ada dari halaman web yang telah sering dikunjungi. hal ini berdasarkan estimasi rating (tingkat) seberapa sering sebuah halaman web itu diubah. Hal ini juga menggantikan halaman lama dan kurang penting dengan halaman baru yang lebih relevan. ini memecahkan masalah fresness of data (kesegaran data). Keuntungan dari Traditional Crawler adalah data yang disedikan hanya bernilai untuk user. menghemat bandwith jaringan dan mencapai pengayaan data.

3. Distributed Crawler

Teknik komputasi terdistribusi adalah fondasi utama untuk mengcrawler web yang didistribusikan. Banyak crawler bekerja pada waktu yang sama ditandem dan mendistribusikan beban kerja mengcrawler web untuk mendapatkan cakupan maksimum dari internet. Pusat server mengelola komunikasi, singkronisasi node dan berkomunikasi antara bot yang berbeda. hal ini juga secara geografis didistribusikan. hal ini juga didistribusikan secara geografis. ini terutama menggunakan Page Rank Algorithm (Algoritma Peringkat Halaman) untuk meningkatkan efisiensi dan kualitas pencarian. keuntungan dari Crawler Web Terdistribusi adalah Kokoh (Robust). hal ini tahan terhadap sistem crash dan lainnya. dan dapat diadopsi untuk berbagai kebutuhan Crawler.

4. Paralel Crawler

Paralel Crawler adalah beberapa crawler berjalan pada waktu yang sama. Hal ini terdiri dari beberapa proses crawling disebut sebagai C-Procs yang dapat berjalan pada jaringan workstation. crawler paralel tergantung pada pilihan halaman dan freshness page (kesegaran halaman). sebuah crawler paralel dapat didistribusikan di lokasi geografis jauh atau berada pada jaringan lokal. Paralelisasi sistem mengcrawler sangat penting dari sudut pandang download dokumen dalam jumlah waktu yang wajar.

Salah satu bahasa pemrograman yang digunakan untuk mengcoding sebuah Web Crawler adalah Python, karena Python memiliki fitur yang sederhana, portable, free dan open source.

Source :

Kancherla, Vinay, 2014, A Smart Web Crawler For Concept Based Semantic Search Enggine, Sanjos State University.

http://www.slideshare.net/iosrjce/smart-crawler-a-two-stage-crawler-for-concept-based-semantic-search-engine?from_action=save

http://www.slideshare.net/icaromedeiros/linked-data-in-use-front-in-bahia-2014?qid=4e72a7b5-65c6-416f-abb8-38f477849d37&v=&b=&from_search=17

Pemanfaat RDFa (RDF in Attribute) Untuk Organisasi dan SEO (Search Enggine Optimization)

Pemanfaatan Pada Blog :

Blog adalah tempat entry item untuk di jual, entry yang di review, entry yang merupakan spesialisasi informasi tertentu, halaman web ingin menjadi data. dengan menggunakan RDFa mempublis data menjadi mudah dengan HTML. Sebuah halaman blog atau web akan lebih mudah terindek oleh search enggine.

Pemanfaatan Pada Simbol Kimia :

Membuat spesifik Chemistry untuk search enggine
Memperbaiki UserInterface untuk blog

Pemanfaatan RDFa Penggunaan RDFa untuk Organisasi /Individu adalah sebagai berikut :

Vertical Search Enggine
Mempermudah organisasi untuk mempublish data
Mempermudah individu untuk mempublish data
Menyesuaikan User Interface dengan menggabungkan link data cloud.

Pemanfaatan RDFa pada Goverment Data adalah sebagai berikut :

Menghilangkan ambiguitas pada halaman data
Mempermudah untuk publish data
Cukup powerful untuk mempublish link data
Ideal untuk publish goverment data

Pemanfaatan RDFa pada SEO (Search Enggine Optimization) adalah untuk memperbaiki akurasi identifikasi bantuan pencarian example : Bukan hanya untuk 'Mentri Kelautan dan Perikanan' tetapi juga 'Pudji Astuti'.

Source :

http://www.slideshare.net/mark.birbeck/the-possibilities-of-rdfa-and-the-semantic-web/50
http://www.slideshare.net/mark.birbeck/rdfa-in-seo?related=1

RDFa (Resource Description Framework In Attributes)

Secara Sederhana RDFa (RDF in Attribute) adalah Serialisasi RDF secara umum yang embbedded di HTML, XHTML dan XML.

Didalam wikipedia.org RDFa (RDF in atribute) didefenisikan sebagai Rekomendasi dari W3C untuk menambahkan sekumpulan attribut ke HTML, XHTML dan berbagai jenis dokumen XML untuk embbedding metadata yang kaya pada dokumen web. RDFa merupakan pemetaan model data yang memungkinkan pengguna untuk embbedded ekspersi triple RDF dalam dokumen XHTML. Hal ini juga memungkinkan ekstraksi model triple RDF sesuai yang digunakan agent.

RDFa (RDF in attribute) merupakan RDF yang bisa disisipkan dalam dokumen (X)HTML. RDFa juga sudah menjadi spesifikasi resmi W3C. RDFa merupakan salah satu format metadata dalam dokumen HTML, merupakan standar dari W3C yang paling bisa diperluas. didalam dokumen lain RDFa (RDF in attribute) didefinisikan sebagai attribute kata atau frasa yang harus menangani entitas semantik.

RDFa (RDF in attribute) adalah perluasan untuk HTML5 yang akan membantu anda markup sesuatu seperti People, Place, Tempat, Resep dan Description. Search Enggine dan Web Services menggunakan markup ini untuk menghasilkan daftar pencarian yang lebih baik dan memberikan visibilitas yang lebih baik di Web, sehingga orang dapat menemukan website anda dengan lebih mudah.

Contoh sederhana dari RDFa adalah :

<html
  xmlns="http://www.w3.org/1999/xhtml"
  prefix="foaf: http://xmlns.com/foaf/0.1/
          dc: http://purl.org/dc/terms/"
  >
  <head>
    <title>My home-page</title>
    <meta property="dc:creator" content="Mark Birbeck" />
    <link rel="foaf:topic" href="http://www.example.com/#us" />
  </head>
  <body>...</body>
</html>

RDFa melakukan pemetaan untuk Dokumen RDF seperti yang terlihat pada gambar berikut :

Penggunaan RDFa yaitu untuk :

Transfer data dari suatu aplikasi untuk aplikasi lain melalui web.
Menulis data hanya sekali untuk user web dan aplikasi web

Langkah - langkah pada RDFa :

Mendeklarasikan schemas yang anda gunakan.
Menggunakan attribut untuk mark (menandai), type dan add data.
Membiarkan RDFa agent untuk mengekstrak RDF dari dokumen.

Data yang terlihat oleh User :

Code data yang terlihat oleh User pada Website :

Code RDFa Agent Pada Sebuah Website :

Yang diketahui RDFa Agent pada sebuah defenisi code RDFa pada sebuah website :

Hal yang harus diketahui untuk RDFa adalah :

RDFa merupakan attribut yang mempunyai arti untuk mesin
RDFa embedded dalam dokumen HTML dan yang secara langsung tidak terlihat oleh User
Embedded data dibutuhkan untuk menghilangkan ambiguitas pada content dalam hal web.
RDFa Developer merupakan Plugin Mozilla Firefox yang dapat melakukan :

Pemeriksaan terhadap markup RDFa
Mengizinkan query data pada halaman web menggunakan bahasa query SPARQL
Mendeteksi perangkap umum pada penggunaan RDFa

Hubungan RDFa dengan Semantic Web secara keseluruhan adalah pada Link Data, Semantic Web Stack, OWL (Web Ontology Language) yang mampu menambahkan kosa kata yang panjang untuk semantik formal dan ekstensi dari RDF ke RDFS (RDF-Schema), Triple Store (A database for RDF), SPARQL yang merupakan bahasa query untuk RDF.

Contoh Website yang saat ini Menggunakan RDFa adalah :

http://www.bbc.co.uk/music/artists/mostviewed

http://stores.bestbuy.com/tn/brentwood/1600-galleria-blvd-170.html

http://shop.oreilly.com/product/0636920040156.do

Bagian yang dilingkari warna merah merupakan contoh sintaks untuk RDFa pada metadata buku di Oreilly.com :

Fungsi Sintaks Pada RDFa adalah sebagai berikut :

Summary untuk RDFa adalah sebagai berikut :

RDFa menyediakan tags semantic yang embedded didalam halaman web.
RDFa membantu software untuk mengerti content dari halaman web.
RDFa related dengan RDF, yang mana RDF merupakan standar untuk sharing data sehingga dipahami oleh mesin.
Penggunaan RDFa tools seperti RDFaDev, checkrdfa.info, GRDDL Services, HTML Editor.
RDFa adalah stepping stone (batu loncatan) untuk kemampuan penuh Semantic Web.
BBC, BestBuy dan Orielly yang awal menerapkan RDFa.

Manfaat RDFa adalah sebagai berikut :

RDFa memberikan kemudahan untuk mempublish data RDF di web.
Seringnya, data RDF yang sama tersedia dalam format yang berbeda, memasukkan RDFa

Terserah klien untuk memilih yang mana digunakan
Aplikasi Web bergantung pada RDFa,

3. Bermacam search enggine mulai menggunakan mengkonsumsi RDFa seperti Google dan Yahoo

4. Facebook 'Sosial Graph' based on RDFa

5. Efek dari google banyak website yang menggunakan format RDFa, seperti :

Tesco, NewsWeek, Slide Share, The London Gazzete dan White House.
BestBuy & Orielly Catalog

6. Manfaat yang dirasakan Bestbuy setelah menggunakan RDFa adalah pengingkatan trafik pada websitenya sebesar 30%.

7. Mempublis RDFa merupakan langkah penting untuk menggabungkan Semantic Web dan Traditional Web.

Source :
https://www.w3.org/TR/2015/REC-rdfa-core-20150317/#rdfa-attributes
https://en.wikipedia.org/wiki/RDF
http://www.paradesain.net/547/mengenal-semantic-webweb-semantik/
https://rdfa.info/
http://www.slideshare.net/shamod/rdfa-what-why-and-how-by-mike-hewett-and-shamod-lacoul
http://www.slideshare.net/fabien_gandon/rdfa-in-a-nutshell-v1?related=5

Menganotasikan File Template Blogspot dengan Anotasi Script dari Schema.org

Schema.org adalah

Untuk menganotasikan sebuah Website atau Blog dengan struktur kode schema.org, yang pertama harus kita lakukan adalah mengubah dan menambah kode pada file template, contoh disini saya gunakan file template untuk blogspot yang berformat .XML, prosesnya sangat sederhana mari ikuti step by step seperti berikut :

Masuk ke Dashboard Blogspot (http://blogger.com)
Pilih Bagian Template > Edit HTML > Saat melakukan pengeditan sebaiknya file template asli di save dulu dalam bentuk nama lain di notepad, sehingga saat terjadi kesalahan atau kegagalan dalam pengkodingan anda ada backup data file templatenya.
Proses Pengeditan awal bisa dilihat dan dipelajari di Website ini, dan penambahan sedikit kode seperti ini :
Setelah dilakukan pengeditan kode > Simpan Template > Kembali
Anda bisa me refres alamat website anda contoh disini : http://semanticca.blogspot.com/
kemudian klik kanan > View Page Source > Select All > Copy > Pastekan di Google Developer Testing Tools
Kalau masih ada yang salah monggo silahkan di cek untuk codingnya supaya jangan ada yang kurang. dan langkah tersebut diulang terus menerus sampai menemukan hasil seperti yang saya paparkan.

Website Semantic CA sebelum dianotasikan dengan kode-kode schema.org :

Pada gambar di atas hasil dari parsing Page Source menggunakan Google Developer Testing Tools , Hanya menghasilkan dua item yaitu Hatom dan Hasil Penelusuran Khusus. kemudian setelah saya menambah sedikit code script berikut yang letak sebelum </head> dan setelah <body...> :

Dan hasil yang didapat setelah dilakukan parsing dari code view page sourcenya dengan Google Developer Testing Tools adalah sebagai berikut :

Waaala.... Itulah hasil setelah dilakukan sedikit perubahan codingnya, Tambah Dua Item lagi yaitu WebPage yang terdiri dari data Name, Description dan Author dan Item untuk SiteNavigationElement.

Dan hari ini Blog Semantic CA sudah teranotasi dengan sturktur file Schema.org.

Happy Coding... ^_^

Semantic CA