Semantic CA

WHAT'S NEW?

Snap-SPARQL merupakan turunan dari SPARQL, query hampir sama persis seperti SPARQL hanya beberapa sintaks tambahan yang berbeda. Pluggin Snap-SPARQL sudah mendukung Protege 5.0.0 Beta 24, dan Snap-SPARQL tersedia framework (API) untuk Java.

Snap-SPARQL mendukung Reasoning, inilah yang menjadi kelebihan Snap-SPARQL dari pada SPARQL.

Untuk memahami lebih dalam tentang Snap-SPARQL bisa dibaca pada tutorial berikut ini : Snap-SPARQL : A Java Framework for Working With SPARQL & OWL

Semantic Web (Web Semantik) adalah sebuah aplikasi web yang intuitif yang mampu untuk memindai (scan) informasi yang diperlukan secara tepat.

Kelebihan dari Semantic Web adalah sebagai berikut :

1. Prediction & Action (Prediction & Action)

Semantik web telah membuat kemungkinan prediksi dari berbagai cara, yaitu seperti operasi otomatis (automated operasion) seperti menyelesaikan semua kebutuhan untuk perjalanan seperti mengisi personal record. Semantic web dapat didefenisikan sebagai web informasi di internet dan intranet yang berisi karakteristik penjelasan yang memungkinkan untuk mengakses informasi yang tepat yang dibutuhkan.

Semantic web digunakan untuk perencanaan logistik dalam operasi militer. Militer Amerika Serikat yang pertama menerapkannya.

2. Health Care (Kesehatan) & Life Science (Ilmu Pengetahuan)

Pada bidang Health Care and Life Science semantic web digunakan untuk data dari berbagai sumber dan beberapa aplikasi karena ketidak lengkapan data tersebut.

3. Engineering Analysis (Analisis Teknik)
Pada Engineering Analisis semantic web terlibat dalam menangani data set yang rumit yang tidak terhitung jumlahnya. semantic web menawarkan keuntungan pada engineering analisis yaitu seperti berikut ini :

Data tidak akan hilang di server
Sistem Tanggal Manajemen Produk tidak mahal

Data Warehousing (DataWarehouse)

Specific Semantic Web Technology (Teknologi web semantik yang spesifik)

Menurut W3C, Semantic Web Mengizinkan data untuk di shared dan di reuse pada aplikasi yang berbeda, enterprise (perusahaan) dan berbagai komunitas.

Source :
http://www.w3schools.com/html/html5_semantic_elements.asp
http://www.brighthub.com/internet/web-development/articles/82954.aspx

Organisasi membangun ekosistem dari database mempertimbangkan kelengkapan data warehouse tradisional dengan solusi memanfaatkan RDF. RDF merupakan solusi standar NoSQL saat ini, karena schema-less, distributed, sangat terukur dan sempurna untuk semantik. Database yang cocok untuk pemrosesan tersebut adalah GraphDB dari Ontotext. GraphDB merupakan semantic database. GraphDB dapat diakses dan dikonek dengan data dari berbagai sumber baik Content Management System (CMS) atau internal source seperti database enterprise relasional. Untuk memahami GraphDB perlu untuk memahami database “triple” store. Triple merupakan basic atom dari data. Yang terdiri dari sebuah term yang terbentuk dari subjek-predikat-objek, seperti Jhon has a hat. Dapat didekomposisikan semua data kedalam bentuk record database khusus : person has a name. name is Jhon Smith, person has a date of birth, the date of birth is 12/04/1982.

Dalam prakteknya, arti dari semantic database adalah “triplestore”, yang dapat menyimpan dan dapat mengambil data dari database tradisional. Semua informasi dapat disimpan dalam bentuk triple (dapat dipecahkan kedalam bentuk atom dari makna). Jadi semantic database dapat menyimpan berbagai jenis data. Penyimpanan secara triple bagus untuk menyimpan text karena dapat menyimpan seluruh arti dan mengizikan untuk query.

Seperti semantic database lainnya, GraphDB digunakan untuk query bahasa SPARQL, yang mana secara khusus untuk menangani query yang besar pada database RDF atau sumber data yang berbeda. SPARQL menyediakan fungsi aggregate yang sama dengan SQL, seperti operasi analitis JOIN dan SORT, tetapi yang lebih powerful. Mungkin perbedaan terbesar dengan SPARQL adalah hubungan data yang jelas dan cara aksesnya. Hasil query SPARQL akan mengembalikan informasi yang mencerminkan pemahaman dari pengguna bukan hanya struktur dari database.

GraphDB mampu melakukan query teks dan melakukan inferencing lebih lanjut. GraphDB menerapkan aturan built-in dan custom rule set dalam mengambil data, yang menciptakan data baru secara otomatis. Sebagai contoh, yang mempertimbangkan dua fakta yaitu : Fido is a dog. A Dog is a mamal. GraphDB dapat menciptakan fakta ke tiga dengan inferencing yaitu Fido is a mamal. Hal ini dikenal dengan sebutan forward dan backward chaining. Forward chaining adalah iteratif yang menerapkan aturan untuk fakta yang diketahui. Backward chaining adalah mengambil fakta yang diberikan dan menggunakan fakta-fakta yang ada untuk membuktikan kebenarannya. Proses ini otomatis dan fakta baru dapat dikembalikan pada saat query.

Ketika statement diubah atau diekstrak, mesin secara otomatis menerapkan algoritma yang diperlukan untuk menemukan dan meng-update semua inference yang terpengaruh dan memverifikasi inference yang masih mendukung. Jenis dari reasoning yang mendukung diterapkan untuk seluruh lifecycle dari data. Hal ini sangat penting karena fakta berubah setiap waktu. Jumlah resource yang dibutuhkan secara manual mengatur update atau menjalankan ulang proses inferencing akan sulit tanpa kemampuan ini. Sejauh ini, GraphDB merupakan satu-satunya database RDF yang mendukung update inferred fakta otomatis.

Keuntungan GraphDB adalah dapat menciptakan informasi baru, sekumpulan informasi yang dapat dipercaya dan menemukan hubungan pada data yang sebelumnya tidak mungkin ditemukan. Secara langsung mengintegrasikan kemampuan tekt mining kedalam triple store. GraphDB pada dasarnya menawarkan jalur semantik untuk knowledge. Tanpa triplestore, data yang dikembalikan dari teks mining sangat sulit untuk diatur. Dan tanpa text mining, secara praktis tidak mungkin dengan cepat dan efektif mengekstrak makna dari tubuh text, karena GraphDB mengsingkronisasi teks dan data secara real time, memberikan tingkat akurasi dan konsistensi yang lebih tinggi.

GraphDB cocok untuk integrasi data dan resolusi identitas, karena kuat digunakan untuk analisis teks dan optimal untuk triplestore. Untuk menyelesaikan identitas disumber yang berbeda, GraphDB mengidentifikasi dan menciptakan referensi ke entitas, kemudian menyimpan referensi dengan cara merepresentasikan identitas duplikat salah satunya. Memungkinkan visibilitas dan akurasi yang lebih besar serta integrasi data dari beberapa sumber.

BBC menggunakan teknologi GraphDB selama piala dunia tahun 2010 untuk menyediakan framework publishing semantik dinamis, tools yang dibuat dan untuk mempublikasikan konten situs web. Institusi pemerintahan dan penelitian juga mendapatkan keuntungan dari kemampuan semantic search. Keduanya memiliki jutaan dokumen yang menjadi konten baik yang telah lalu atau yang saat ini. Bayangkan jika sebuah perusahaan farmasi mampu mencari semua komentar yang berkaitan untuk seluruh web untuk interaksi dengan obat tertentu, dan menggabungkan hasil dengan requirment FDA dan peringatan.

Salah satu aspek powerful dari GraphDB adalah inferencing. Mampu secara otomatis dan iterative menghasilkan fakta baru untuk menghasilkan resolusi query dan pencarian lebih lengkap. Dengan memperluas knowledge dan informasi diluar eksplisit data, GraphDB menyediakan pengguna untuk mampu memulai menemukan keuntungan proses, mempercepat analisis dan pengambilan keputusan.

Sebuah organisasi yang akan menggabungkan dan menerbitkan data dalam jumlah yang besar harus mempertimbangkan untuk menggunakan GraphDB. Institusi keuangan, retailer besar dan perusahaan telekomunikasi sebagian besar bergantung pada model relasional, tetapi data web dan eksternal data jadi lebih penting, kemampuan untuk mencari, mining dan mengintegrasikan kedalam sistem menjadi kebutuhan strategis. Proyek integrasi data menjadi mahal dan rumit. Solusi seperti GraphDB mengizinkan semua jenis data yang dibawa bersama menjadi akurat dan cepat dan dilakukan pada bagian kecil dari biaya biasa. Kombinasi dari dukungan inferensi, beban query parallel dan frekuensi update memberdayakan pengguna untuk mengungkapkan hubungan implisit di volume data besar yang tersebar. GraphDB benar-benar meaningful, solusi semantik end-to-end.

Source : GraphDB: At Last, The Meaningful Database (http://ontotex.com)

Semantic Web telah lambat untuk menyadari potensinya karena kurangnya partisipasi pengguna dan memotivasi aplikasi, yang dapat digunakan dan dipahami oleh orang biasa. Web sosial dapat melengkapi Semantic Web dan membawanya ke realisasi praktis. Web sosial memberikan platform yang dapat dengan mudah dipahami dan digunakan oleh orang-orang biasa. Dengan memfasilitasi interaksi dan kolaborasi antara orang-orang di web sosial, konsensus dapat dicapai dan standar dapat muncul. Fenomena Web sosial telah memotivasi jutaan pengguna dengan memiliki aplikasi sederhana dan berhasil dikumpulkan volume besar data dari pengguna. Fenomena yang sama mungkin bootstrap Semantic Web dengan cukup data dan siklus aplikasi yang terkenal melanggar "ayam atau telur". Langkah pertama untuk Web Semantic adalah memiliki banyak data. Rasionalisasi data dapat dilakukan kemudian (Huynh, et al., 2007a).

Di sisi lain, Web Sosial berjalan dengan beberapa masalah karena sifat yang tidak terstruktur dan kurangnya standar semantik. Berton Pengguna yang dihasilkan tidak dapat dipahami dan diproses secara efektif oleh mesin. Selain itu, sistem yang berbeda tidak dapat beroperasi satu sama lain karena semantik tidak jelas. Semantik web dapat menyediakan struktur yang terdefinisi dengan baik untuk data pada web sosial mereka yang dapat diproses oleh mesin. Semantik web juga dapa memberikan standar yang dibutuhkan untuk interoperabilitas antara aplikasi onlin dari web sosial.

Dengan cara ini, Sosial Web dan Semantik Web dapat saling melengkapi untuk mengatasi tantangan kedua yang dihadapi dunia. kombinasi perangkat lunak sosial dengan teknologi semantik web telah mendapatkan perhatian yang signifikan baru-baru ini (Ankolekar et al, 2007;. Gruber, 2008; Schaffert, 2006), keseluruhan tentang buku ini datang dari (Blumauer & Pellegrini, 2008; Breslin et al. , In Press). dan ada sejumlah besar karya yang mencoba untuk memungkinkan pengguna biasa untuk menghasilkan "Konten" Semantik Web dengan menggunakan perangkat lunak sosial. yang dihasilkan Semantik Web Sosial dapat membantu dalam menciptakan pengetahuan kolaboratif dengan memfasilitasi partisipasi massa dan interaksi. namun, menggabungkan dua hal yang berbeda ini tidak begitu mudah. Terutama ketidak strukturan bagi orang-orang dan hal terstruktur utama untuk mesin.

Sosial Web dan Web 2.0 merupakan Adik dari Web 3.0 (Sering disebut Semantic Web). Sosial Web adalah semua aplikasi online dan layanan yang memungkinkan orang untuk berpartisipasi dan berkontribusi pada Web. Ini berfungsi sebagai platform bagi orang untuk terhubung satu sama lain, bersosialisasi dan berinteraksi. Hal ini membantu orang terhubung bersama dan berbagi minat yang sama. Sosial Web memfasilitasi orang untuk berbagi informasi dengan mudah dan bebas. Hal ini didorong oleh User-generated Content (User yang menciptakan konten). Kontribusi dari jutaan User di seluruh dunia menghasilkan koleksi resource yang up-to-date meskipun dibutuhkan usaha dari setiap constributor indivual. Fenomena ini didorong oleh kekuatan orang, kecerdasan kolektif (Collective Intelligent) juga dikenal sebagai kebijakan orang banyak. Sosial Web merupakan aspek yang paling membedakan dari Web 2.0. (O'Reilly, 2005).

Beberapa aplikasi Sosial Web secara umum adalah :

Blog (Wordpress & Blogger)
Wiki (Wikipedia)
Social Bookmarking (Delicious & Digg)
Multimedia Sharing Site (Youtube, Filckr & Last.fm)
Tagging (Incorporate in most social website)
Sosial Networking (Facebook & MySpce)

Keuntungan Dan Tantangan Sosial Web

Sosial Web telah menikmati sukses bersar karena teknologi yang mudah dipahami dan digunakan untuk user biasa. hal ini menyebabkan partisipasi yang luas. Selanjutnya, orang-orang menikmati aplikasi ini karena mereka dapat mengidentifikasi diri dan teman-teman mereka ke aplikasi. Namun aplikasi ini sederhana memiliki keterbatasan yang parah. Data biasanya dalam bentuk teks tidak terstruktur atau file multimedia. Isi ini dipahami oleh manusia, tetapi tidak dipahami atau diproses secara otomatias oleh mesin. Semantik dari konten tidak jelas, Tag yang sama mungkin memiliki arti yang berbeda untuk orang atau hal yang berbeda atau hal yang sama dapat ditandai dengan cara yang berbeda oleh orang yang berbeda. Oleh karena itu pengolahan dan pengambilan informasi menjadi sulit. Juga, ada kurangnya interoperabilitas antar situs sosial. untuk mengaktifkan pertukaran informasi dan interoperation antara sistem, arti dari informasi harus jelas dan dipahami oleh semua sistem. Saat ini, situs sosial menimbun banyak data dalam diri mereka sebagai silo tertutup. Dinding kebun data mungkin tampil cantik dengan pengguna pada awalnya tetapi membatasi pengguna dalam. untuk mengatasi keterbatasan ini kita perlu standar yang ditetapkan untuk berbagai jenis data yang dapat diadopsi oleh sistem online di seluruh dunia.

Collaborative Search adalah pencarian yang mengasumsikan shared informasi yang dibutuhkan dan menggabungkan berapa perspektif untuk meningkatkan hasil pencarian.

Model Collaborative Search :
1. User Behaviour - Intent - Implicit VS Explisit :

Implisit :

Pengguna menyadari bahwa data lain digunakan untuk informasi pencarian
Sistem menyimpulkan similarity (kemiripan) dari informasi yang dibutuhkan
Sistem merekomendasi dokumen berdasarkan kemiripan kesimpulan
Bagus untuk menemukan apa yang telah ditemukan
Mungkin tidak efektif untuk pencarian eksplorasi (exploratory search)

Eksplisit

Pengguna secara eksplisit menyatakan shared informasi yang dibutuhkan
Sistem menggabungkan kontribusi dari kolaborator untuk menemukan informasi baru
Bagus untuk pencarian eksplorasi.

2. System Behaviour

Dept Of Mediation

Communication vs UI vs Algoritmic mediation

Syncronization

Asymmetric vs Symmetric

Communication

Orang berkomunikasi tentang tugas pencarina, tentang hasil pencarian
Baik User Interface maupun Algoritma tahu beberapa orang yang terlibat

Setiap orang menggunakan sistem independen
Sistem Retrieval unware beberapa orang

Algoritmik

kontribusi masing-masing orang dilacak secara terpisah oleh sistem pencarian
Kontribusi dapat dikombinasikan untuk menghasilkan efek retrieval yang diinginkan

Aspek bersifat kumulatif

UI juga meliputi komunikasi
mediasi algoritmik juga mungkin termasuk UI dan komunikasi

Pengaruh simetris

Data yang dihasilkan oleh satu orang yang tersedia untuk semua kolaborator untuk tugas pencarian yang sama

Cari Bersama
Cerchiamo

Pengaruh asimetris

Beberapa orang tidak melihat kontribusi dari orang lain

Rekomendasi

Sinkronisasi tidak sinkronisitas

Tidak ada implikasi ketika orang mencari
Tidak ada kebutuhan WYSIWIS
Menggambarkan ketersediaan data orang lain sehubungan dengan informasi yang perlu

Tujuan dari web crawling adalah untuk mengumpulkan koleksi halaman web yang berguna secepat dan seefisien mungkin, sambil memberikan setidaknya fitur yang diperlukan untuk menghormati keterbatasan yang ditetapkan oleh penerbit (kesopanan) dan menghindari perangkap (ketahanan).

Dhinakaran dan Sambanthan [7] memberikan gambaran singkat tentang empat kebijakan yang kombinasi yang mempengaruhi perilaku web crawler. Kami mewarisi dari sebuah implementasi crawler yang ada untuk menentukan kebijakan untuk mengunjungi kembali, paralelisasi, dan kesopanan.

Kami terutama akan fokus pada pelaksanaan kebijakan pilihan baru, yaitu menentukan urutan URL baru yang ditemukan dan diproses. Kebijakan Pemilihan web crawler biasanya menggunakan variasi dari algoritma PageRank [24] dengan tujuan untuk mengumpulkan halaman yang paling populer dalam Web, karena mereka juga lebih mungkin untuk mencari. Meskipun menurut definisi semua crawler bertujuan untuk membangun koleksi yang berguna untuk tujuan tertentu, fokus crawler seperti yang dijelaskan di halaman sasaran literatur yang relevan dengan topik tertentu.crawler fokus pertama kali disebutkan oleh Menczer [20] yang dimodelkan masalah terinspirasi oleh bekerja pada agen beradaptasi dengan lingkungan yang berbeda.

Kemudian, Chakrabarti et al. menciptakan crawler jangka fokus dan memperkenalkan pendekatan menggunakan pra dilatih classifier untuk menetapkan topik-label ke URL baru berdasarkan fitur yang dapat diekstraksi dari URL itu sendiri [4]. Fitur klasifikasi lainnya telah diperoleh dengan menggunakan teknik NLP yang berbeda [13, 14, 16, 27]. Selanjutnya, Rajin et al. menggunakan informasi yang dikumpulkan dengan menggunakan mesin pencari web untuk mengumpulkan fitur tambahan untuk klasifikasi [?].

Aggarwal et al. Informasi dimasukkan dikumpulkan selama merangkak untuk mengarahkan arah crawler dan memaksimalkan jumlah diambil halaman yang relevan [?]. Mereka menggunakan fitur diekstrak dari isi ayah dari halaman (yaitu halaman di mana kami menemukan link), mengambil token fromunseen string URL dan fitur yang dikumpulkan dari halaman saudara (yaitu yang URL ditemukan di halaman yang sama sebagai salah satu yang akan merangkak).

Setelah crawling halaman, kemungkinan kelompok fitur yang berbeda untuk suatu topik tertentudievaluasi dan probabilitas gabungan digunakan untuk memperbarui prioritas halaman tak terlihat.Meskipun model ini memanfaatkan fitur yang dikumpulkan selama proses merangkak, model probabilistik perlu disesuaikan secara manual terlebih dahulu, yang Chakrabati et al.mencoba untuk mengatasi ketika pertama kali memperkenalkan pendekatan klasifikasi online untuk fokus merangkak [?].

Chakrabarti et al. dibuat dua pengklasifikasi, satu statis, pretrained dari dimuka dikumpulkan dan ditandai corpus, dan satu online, yang digunakan untuk meningkatkan mantan keputusan berdasarkan fitur diekstraksi dari dokumen model objek, misalnya jangkar teks dalam link dari halaman merangkak. Empat tahun kemudian, Barbosa dan Freire mengambil ide utama menggabungkan informasi yang dikumpulkan selama merangkak untuk mengarahkan crawler dengan diperpanjang set fitur [?].

Selain konteks halaman di mana URL ditemukan, mereka membuat penggunaan grafik-struktur halaman web, misalnya dengan membedakan antara fitur langsung diambil dari ayah dan saudara kandung dari halaman, yang kemudian juga digunakan oleh Zheng et Al. [32].Meskipun mereka menggabungkan informasi yang dikumpulkan selama merangkak, mereka hanya mengganti classifier mereka dengan versi terbaru dalam batch, hanya menggunakan informasi baru yang dikumpulkan dan membuang informasi sebelumnya diekstrak.Hasil penelitian mereka menunjukkan bahwa secara berurutan diperbarui pengklasifikasi menyebabkan tingkat yang lebih tinggi dari

mengumpulkan formulir web untuk domain topikal tertentu. Umbrich et al. mengusulkan pendekatan berbasis pola untuk mengklasifikasikan halaman, untuk menemukan jenis media tertentu di Web [30]. Jiang et al. [12] menggunakan metode yang sama untuk belajar pola URL yang mengarah ke halaman yang relevan di forum web.

Perbedaan utama dari pekerjaan ini sehubungan dengan arus utama difokuskan merangkak adalah bahwa kita tidak bertujuan untuk melakukan klasifikasi berdasarkan topik-, melainkan melihat nilai dari halaman web dari perspektif data yang dikandungnya. halaman web yang menyajikan data terstruktur memiliki karakteristik yang unik; markup terstruktur lebih umum untuk jenis tertentu dari halaman, misalnya itemdetail halaman, dan disukai oleh situs web tertentu, biasanya besar situs yang dihasilkan secara dinamis menyajikan jenis konten tertentu.

Target kami juga berbeda dari yang perayap web semantik asli yang mengumpulkan dokumen dalam format dokumen RDF, yang mengikuti seeAlso dan sameAs referensi untuk item data yang terkait dalam rangka untuk menemukan sumber data baru terkait dan informasi.Dua contoh adalah Slug dan LDSpider [9, 11]. crawler ini berurusan dengan isu-isu spesifik terkait dengan data RDF di Web seperti dukungan untuk berbagai format RDF asli, mendukung berbagai protokol komunikasi dll Sebaliknya, pekerjaan kami berfokus pada data terstruktur tertanam di dalam halaman HTML yang baru-baru ini telah berkembang menjadi lebih populer cara mengekspos data pada Web.

Studi terbaru menunjukkan meningkatnya ketersediaan dan keragaman data terkena cara ini [2, 22], menawarkan sumber data yang tersedia secara publik luas dengan potensi besar untuk berbagai aplikasi.

Semantic CA

Labels

Popular Posts

Most Trending

Like us on Facebook

Arsip Blog