Case Study Custom Robots.txt dan Penggunaannya pada Blogger (2/2)

Posting ini ialah episode kedua dari artikel ihwal Robots.txt Blogger yang terdiri dari dua bagian:

Pengenalan dan Fungsi Perintah Robots.txt dan Pengaruhnya pada SEO, bagi yang belum baca, simak terlebih dahulu sebelum membaca episode ini.
Case Study dan Penggunaan Robots.txt pada Blogger, yang sedang sahabat baca pada halaman ini

Case Study Robots.txt pada Blogger

Setelah sahabat mengetahui beberapa hal mengenai perintah robots.txt, saya akan coba presentasikan beberapa hal sebagai upaya melihat efektivitas penggunaan robots.txt pada Blogger.

Sebelumnya, perlu saya sampaikan bagi yang belum tahu, sahabat dapat mengakses fitur ini melalui dashboard > settings > search preferences dan lihat episode bawah pada custom robots.txt. (Note: Jangan melaksanakan editing dahulu sebelum sahabat tahu betul apa yang harus dituliskan).

Sebagai latar belakang, robots.txt sudah terbuat secara otomatis; mengandung perintah default yang sudah diset oleh Blogger. Sobat mampu melihat robots.txt dengan mengakses Google Webmaster Tools, dan lihat pada sub halaman "crawler access". Atau yang lebih mudah, lihat aja pribadi file nya dengan menambahkan nama file robots.txt di belakang url blog. http://blogmu.blogspot.com/robots.txt, pola : http://buka-rahasia.blogspot.com/robots.txt. Secara default ibarat ini baris-baris perintahnya:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Allow:

Sitemap: http://buka-rahasia.blogspot.com/feeds/posts/default?orderby=updated

Kelompok baris pertama ialah user agent milik adsense; digunakan sebagai perintah untuk mengijinkan robot crawler adsense untuk mengindeks website/blog. Fungsinya untuk mengetahui isi web/blog, semoga iklan yang ditampilkan lebih relevan, dan ini tidak sama/berkaitan dengan crawler Google search engine. Bagi yang menggunakan adsense di Blogger, tentun ini menguntungkan dan jangan dihapus. Terus bagi yang menggunakan adsense di WordPress (self hosted, bukan yg gratisan wordpress.com, itu mah ga boleh pasang iklan, hehe), Joomla, Drupal, dll, tambahkan perintah ini untuk mempermudah crawler adsense.
Kelompok baris kedua ialah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga ialah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.

Case study yang saya lakukan khusus pada label. Label menjadi "halaman terlarang" untuk diindeks sebab bukan merupakan halaman riil dan dapat menjadikan duplikasi, efeknya tentu tidak baik bagi SEO. Kasus ini juga terjadi pada halaman arsip (archive).

Method

1. Menggunakan rel=nofollow pada label.

Saya menghilangkan pelarangan terhadap indeks label ( /search), dan kembali menggunakan rel=nofollow pada label, ibarat yang pernah saya sampaikan dulu.

2. Menghilangkan rel=nofollow pada label, dan kembali menggunakan perintah pelarangan indeks label pada robots.txt 9mengembalikan pada setting semula)

Setelah beberapa waktu dan setelah menerima hasil dari metode pertama, saya kembali menggunakan perintah pelarangan indeks label, dan menghilangkan rel=nofollow label.

3. Menggunakan rel=nofollow label sekaligus pelarangan indeks pada robots.txt (Disallow: /search).

Setelah menerima hasil dari cara kedua, saya menggunakan kedua perintah nofollow dan disallow pada robots.txt.

Results

Hasil dari ketiga metode percobaan tersebut cukup berbeda:

1. Dengan menggunakan rel=nofollow saja pada label, error yang muncul pada Webmaster Tools masih saja ada, dari sekitar 90 error pada ketika crawling, pengurangannya tidak signifikan, hanya sekitar 10-15 saja dalam waktu satu minggu, itupun tidak menghindarkan adanya halaman label yang masih terindeks.

2. Dengan menggunakan pelarangan pada robots.txt, tanpa rel=nofollow, pengurangan error crawl lumayan berkurang, dari sisa di atas (sekitar 65-80 label), sisanya sekitar 30-40 saja hanya kurang dari satu minggu.

3. Dan yang terakhir, dengan penggunaan keduanya, balasannya jauh sangat signifikan, hingga ini saya tulis hasilnya= 0! tidak ada lagi yang menjadi dilema pada crawl errors pada Webmaster Tools, dan semuanya hanya dalam waktu singkat.

Kesimpulan

Seperti yang sudah disampaikan dalam forum-forum webmaster dan oleh search engine ibarat Google sendiri, menggunakan robots.txt tidak serta merta dapat pribadi melarang indeks. Bahkan kadang-kadang, "suka-suka gue lah...," kata Google. Misalnya, sahabat melarang satu halaman untuk diindeks, namun halaman tersebut punya backlink banyak (backlink mampu dari halaman web sendiri/internal link, atau web lain/external link), maka ia tetap akan ditampilkan dengan anchor text sesuai dengan backlink yang diindeks Google. Nah dengan penggunaan dua perintah sekaligus, setidaknya kita mampu menghilangkan sisa-sisa backlink yang masih follow di halaman blog sendiri. Dengan demikian, jika sahabat mencantumkan link label di halaman tertentu, dan ia follow, maka masih diperhitungkan oleh Google dan masuk pada crawl error. Bahkan meskipun kita sudah menggunakan Disallow pada robot txt. So, kalau ingin label tidak diindeks, untuk memaksimalkan SEO, gunakan juga rel=nofollow pada label. Asumsi ini tentunya juga berlaku pada halaman-halaman lain dimana sahabat tidak ingin search engine mengindeksnya (arsip misalnya).

Cara Mengedit dan Mengisi Custom Robots.txt

a. Seperti yang sampaikan di atas, saluran robots.txt editor melalui dashboard > settings > search preferences > crawlers and indexing > custom robots.txt, klik edit.

b. Kemudian klik yes, isikan perintah robots.txt sesuai dengan yang sahabat inginkan, dan save.

Penting: Jika memang sahabat tidak punya kebutuhan untuk melarang indeks pada halaman tertentu, jangan melaksanakan apapun. Jika ingin mengembalikan ibarat semula (default robots.txt dari Blogger), kembalikan dengan memilih "no" dan save.

Sebenarnya pelarangan indeks sangat penting, kita dapat mengontrol halaman-halaman ibarat label (ini sudah diset secara default), dan arsip, yang terang menjadikan duplikasi konten. Jika sahabat tidak nyaman dengan menggunakan robots.txt untuk menghentikan indeks arsip, saya sarankan menggunakan meta indeks/content untuk menghindari duplikasi sebab arsip, caranya jauh lebih mudah.

Saya melihat penggunaan robots.txt yang digabung dengan beberapa cara lain, contohnya penggunaan rel=nofollow, cukup menawarkan hasil pencarian berkualitas dan traffic yang jauh lebih tinggi. Dan saya harap juga demikian pada blog sobat.

Salam hangat.