Search This Blog

Thursday, September 24, 2009

Apa itu Robot Text, Spider, Bots, dan Crawler ?

Bagi anda blogger pemula seperti saya, nampaknya kita perlu tahu pengertian dari Robot Text, Spider, Bots, dan Crawler tersebut.

Spider, Bots, dan Crawler adalah sejenis robot penjelajah di dunia internet yang bertugas mengunjungi website-website dengan maksud dan tujuan berbeda. Tapi “pada dasarnya” pekerjaan utama mereka mengambil data tentang sebuah website, mengindexnya, membawanya, dan menyimpannya didalam database pusat.

Jika kita “pasti” pernah mencari suatu keyword di search engine macam Google, maka dalam sekejap akan muncul beratus-ratus sampai berjuta-juta link pada halaman Google tersebut (dinamakan SERP:Search Engine Result Page). Nah karena dengan teknologi yang sekarang sangat sulit untuk mendapatkan banyak link di seluruh dunia dalam waktu sekitar satu detik, dalam prosesnya Google menggunakan simpanan database yang telah dicari oleh Spider, Bots, dan Crawler sebelumnya.

Sesuai dengan dunia nyata, Robot text hanya diberi tugas untuk memindai, mengindex, dan membawa data untuk disimpan di database. Selain tugas yang diberikan robot ini tidak mempunyai nafsu untuk melakukan tugas-tugas lainnya. Untuk memasukkan (memasang) Robot Text ke blog kita bukanlah hal yang sulit. Namun ini penting juga artinya sebagaimana banyak digunakan dan dibahas master SEO.

…………………………………………………………………………………………..

Bagi pengguna blogger.com atau jika blognya masih gratisan seperti saya ini, caranya adalah memasukkan kode-kode berikut pada html code bagian meta tag (atau antara dan ).

Kode untuk mencegah robot mengindex :

Kode untuk membolehkan robot mengindex halaman yang bersangkutan, akan tetapi jika ada hyperlinks didalam halaman tersebut tidak ikut diindex atau diikuti :

Kode agar halaman yang bersangkutan tidak diindex, dan link-link lainnya tidak diikuti. Juga mencegah web-stripper (mirroring) mendownload misalnya software program dari halaman tersebut :

Kode mana yang anda pilih dan bagaimana anda memodifikasinya tergantung anda.

…………………………………………………………………………………………..

Jika blog atau website anda hosting sendiri alias punya rumah sendiri anda bisa membuat robot text dengan menggunakan Notepad Windows. Dengan mengetikkan beberapa perintah yang diperlukan kita bisa mengarahkan para Googlebot, lalu menyimpannya dengan nama file robots.txt, dan selanjutnya kita upload ke root folder di server dengan menggunakan aplikasi FTP.

Sintax dasar sebuah robots.txt adalah sbb:

User-agent: (keterangan: spiders name here)
Disallow:/
(keterangan: filename here)

Berikut saya berikan beberapa contoh sintax robot text yang disimpan di dalam robots.txt al:

User-agent: *
Disallow:

(Perhatikan sintax diatas User-agent: *, (tanda bintang atau wildcard) artinya semua jenis robot, dan Disallow: maksudnya yang tidak diperbolehkan. Pada contoh sintax diatas dimana Disallow: tidak disertai dengan tanda garis miring ( / ), itu artinya semua file boleh diindex.

User-agent: *
Disallow: /

(Perhatikan sintax diatas User-agent: *, (tanda bintang atau wildcard) artinya semua jenis robot, dan Disallow: maksudnya tidak diperbolehkan, / (tanda garis miring) itu artinya folder. Pada contoh sintax diatas dimana sesudah tanda miring ( / ) tidak disertai dengan apa-apa, itu artinya semua file tidak boleh diindex.

User-agent: *
Disallow: /images/

(sintax diatas membolehkan semua jenis robot mengindex semua file yang ada, kecuali file images, Disallow: maksudnya dilarang mengindex file images)

User-agent: *
Disallow: /images/
Disallow: /stats/

(sintax diatas membolehkan semua jenis robot mengindex semua file yang ada, kecuali file images dan file stats, Disallow: maksudnya dilarang mengindex file images dan file stats)

User-agent: Googlebot
Disallow: /

(sintax diatas User-agent: Googlebot maksudnya khusus robot Googlebot dilarang masuk, robot lainnya dipersilahkan masuk dan mengindex semua file)

User-agent: Googlebot-Image
Disallow: /images/

(sintax diatas User-agent: Google-Image maksudnya khusus Google-Image tidak boleh mengindex file images)

Jika anda ingin melarang robot untuk mengindex beberapa file tertentu, misalnya file1.html, file2.html,anda tidak boleh menuliskannya seperti sintax dibawah ini.

User-agent: *
Disallow: /file1.htm,file2.html

Cara penulisan sintax yang benar adalah

User-agent: *
Disallow: /file1.htm
Disallow: /file2.html

Cara-cara tersebut adalah cara manual, sedangkan jika anda ingin praktis dan mudah banyak juga robot text generator online yang ada di internet.

Source: http://kotamagetan.com

No comments:

Post a Comment

LinkWithin

Related Posts Plugin for WordPress, Blogger...