home

Bakawan Web Design

Bandung Blogger

 

Tutorial Network Unreachable, robots.txt, dan Duplicate Content

googlewebmasterlogo.jpgSaat ini sy sedang mempelajari error apa yg saja mungkin terjadi saat proses googlebot indexing : proses bot google menjelajah setiap halaman pada blog bakawan ini. Salah satu yg pernah terjadi adalah Network unreachable. Menurut answer.py google, arti error jaringan tak tergapai bisa disebabkan Google mengalami timeout atau DNS error saat mengakses URL. Lebih lanjut, google mengira kalau server kami itu sedang down atau sibuk saat googlebot akses url halaman web tsb.

Curiga robots.txt

Menurut bacaan yg sy baca, masalah ini selalu berarti ada masalah pada routing. Mungkin saja ada gateway address tidak berada pada submet yg sama dengan alamat IP kita. jadi sy curiga kalau masalah network tak tergapai googlebot ini lebih disebabkan masalah down server di perusahaan web hosting tempat kami nyewa server.

Kecurigaan kedua bukan menjurus pd server down melainkan kekacauan yg disebabkan robots.txt. Sy takut konfigurasi robot.txt kami yg kemarin baru saja ditulis itu ternyata mengusir setiap bot baik dari mengakses homepage blog kami.

Kode robots.txt (ingat inilah namanya dan bukan robot.txt)

Sitemap: http://www.bakawan.com/log/sitemap.xml
User-agent: Googlebot
Disallow: /log/*/trackback
Disallow: /log/*/feed
Disallow: /log/*/comments
Disallow: /log/*?*
Disallow: /log/*?
Disallow: /log/search  

User-agent: *
Disallow: /cgi-bin/
Disallow: /log/wp-admin/
Disallow: /log/wp-includes/
Disallow: /log/wp-content/plugins/
Disallow: /log/wp-content/themes/
Disallow: /log/trackback
Disallow: /log/comments
Disallow: /log/feed

Pengetesan robots.txt

Oleh karenanya, sy mencoba memverifikasi memanfaatkan tool Analyze robots.txt, yg disediakan Google Webmaster Tool. Tool ini bisa dimanfaatkan mengetes robots.txt saat memblok url. Tes ini bisa dilakukan pada berbagai Google user-agents sehingga kita bisa mengetahui apakah hak akses googlebot itu sudah sesuai.

Kebetulan ada 3 link yg dinyatakan google bermasalah saat ini. Jadi sy tes dengan tool barusan dan hasilnya :

  1. www.bakawan.com/log/page/2/?s=belum // Blocked by line 6: Disallow: /log/*?*
  2. www.bakawan.com/log/search/bisa/page/16/ // Blocked by line 8: Disallow: /log/search
  3. www.bakawan.com/log/search/ngak/page/6/ // idem

Wordpress dan Permalink

Penjelasan link bermasalah nomor 1. Link itu adalah contoh struktur permalink wordpress. Kami membloknya secara sengaja demi menghindari masalah seo lainnya yaitu duplicate content atau duplikasi konten.

Bila kita menemukan huruf ?s= di sebuah url (Uniform Resource Locator), maka jelas kalau link itu merujuk pada halaman hasil pencarian. (CMS drupal menggunakan ?q= (kalau enggak salah?)). Sy ingin memblok akses bot pada halaman pencarian website sy.

Link nomor 2 dan 3 adalah format permalink s?= versi baru. Sy memanfaatkan plugin search permalink wp untuk mengubahnya menjadi lebih human friendly. Efeknya ? nambah lagi redirection sehingga akses visitor menuju halaman yg dicari itu lebih lambat dari sebelumnya. (kayaknya mau di off aja dulu plugin ini :D tp nunggu cache SERP berubah dulu hehehhe)

Duplicate Content ?s= wordpress

Sejujurnya sy ingin sekali membuang seluruh halaman website hasil pencarian di blog saya ini. Alasannya sederhana mereka itu lebih mirip duplicate content daripada sesuatu yg berguna. Selain mengkontaminasi SERP pencarian, duplicate content merusak pagerank internal dan membuatnya berceceran ke mana mana.

Coba bayangkan (awal april 2009) ada 4000 page yg dimiliki blog ini padahal menurut blog statistik yg otomatis tertera di about us, seharusnya halaman blog ini cuma ada +400. Jadi bila sampai 4000, maka ada penggelembungan sampai 10 kali lipat. sebuah kerusakan SEO blog yg luar biasa. :(

Kamu bisa mengecek seberapa rusak blog kamu dengan bantuan query google ini [site:domain.tld]. Contohnya site:www.bakawan.com. Perintah ini akan menampilkan seluruh halaman blog bakawan yg sudah pernah diindex google.

Hasil pengetesan lainnya (tidak akan dibahas) :

  1. www.bakawan.com/log/ // allowed
  2. bakawan.com/log/ // not in domain.

Sesuai dengan keanehan pagerank yg sy tulis sebelumnya pada artikel Beda URL kok Beda Pagerank? hasil allowed dan not in domain ini disebabkan konfigurasi .htaccess yg sy pasang di root website ini. Sy meredirect seluruh akses pada domain bakawan.com/log/ ke yg berakhiran www. Biasanya sih orang melakukan keputusan yg sebaliknya tp sy tidak disebabkan masalah yg belum bisa sy jelaskan saat ini hehehehe.

Catatan SEO

  1. Robots.txt adalah nama resmi file robot dan bukannya robot aja.
  2. Robots.txt itu bersifat rambu rambu lalu lintas bagi bot. Search engine besar seperti google, yahoo, MSN, Live, dll sangat menghormati rambu ini sebagai cerminan penghomatan terhadap privasi owner website. Namun, sayangnya, rambu ini tidak berlaku bagi scraper, bot leecher, aggregator kriminal, dan bot sampah dunia elektronik lainnya yg mencuri konten kita secara otomatis. Read pencurian konten ilegal dan masalah duplikasi

    Jadi untuk sepenuhnya memblok mereka dibutuhkan lebih dari sekedar rambu tapi pentungan redirect dan block pakai apache. Makanya kita membutuhkan konfigurasi .htaccess yg mumpuni (bila kita menggunakan webserver apache).
  3. Selain 2 asumsi awal barusan, error network unreachable itu bisa disebabkan waktu loading yg besar yg disebabkan wordpress terlalu lama merespond (timeout), Hosting server ngeblok web crawler google, masalah DNS konfigurasi yg amburadul.
  4. Waduh kayaknya tagging posting ini kelewat banyak. Mungkin hal ini ngak bisa dilepaskan dari kenyataan kalau masalah duplicate konten itu ngak semata fokus dalam konteks SEO melainkan banyak sub bidang lain yg terkait hhehehe ngeles.

Musuh Blogger Terbesar

Musuh terbesar blogger yg pakai blog wordpress itu adalah sistem permalink pencarian wordpress (biasanya pakai s=? atau /search/ di url link). Mereka adalah penyumbang duplikat konten terbesar. Masalah ini akan dibahas dalam posting terpisah karena mulai spesifik customisasi wordpress sih. :D

Tags: , , , , , ,

Related Posting

40 Responses to “Tutorial Network Unreachable, robots.txt, dan Duplicate Content”

  1. thegands on April 14th, 2009 10:19 am

    bukannya page banyak karena tag juga?

    iya….makanya sejak awal sy udah memilih kalau blog ini cuma mengandalkan tag dan tanpa dukungan category. See bakawan kategory pd http://www.bakawan.com/log/category/uncategorized/

    sementara soal search yg biasanya permalinknya bisa ada 3, yaitu
    1. /search/
    2. ?s=
    3. index.php?s=

    mau dioffin karena menjadi penyumbang halaman baru. sy pribadi lebih suka semua ini ngak ada. hohoho tunggu deh kalau artikelnya udah beres :D

    kalau saya pribadi, saya tidak ambil pusing karena duplicate content ini. seharusnya google tahu apa hasil pencarian dengan halaman normal. karena visitor pasti butuh kotak search.

    sayangnya google engak tau. ada solusi sih pake canonical link tp soal ini sy ngak gitu yakin karena baru tahap percobaan doank.

    iya, visitr butuh yg namanya kotak search. Tp bukankah lebih baik bila hasil pencarian mereka enggak kelihatan di SERP google.

    setelah saya rimang-rimangi(bahasa bataknya memperhatikan dan menganalisa) isi robots.txt diatas, bukankah seharusnya tidak ada masalah?

    iya seharusnya ngak ada masalah….Kayaknya ngak pada robot.txt tp lebih mungkin ada masalah di server yg diluar kendali kita (tanggung jawab web hosting). server kan ngak selalu up 100 persen. jujur gands, ngak bisa kasih jawaban pasti….mungkin 3 link itu cuma anomali gara2 perubahan robots.txt yg tiba2 (sebelumnya belum bikin)

    hmm… benar juga.. benar2 harus pelajari dari core lagi.. tapee deh… hahahahaha

  2. Artha on April 14th, 2009 12:02 pm

    wah gitu ya ribet juga ya metodenya

    sekilas sih iya belik artha. Tp kalau paham konsep mungkin akan lebih mudah. Apalagi duplicate conten itu masalah yg ngak cuma terkait sama bagaimana wp kita bekerja tetapi juga bagaimana google mengindex blog wp kita kan ?

  3. mangkum on April 14th, 2009 1:58 pm

    Wah tengkiu infonya, Wi.
    Insya Allah, bulan depan, kalau jadi, gw mo self hosting pake mesin WP nih.
    Berguna banget, kalau nanti blog gw problem.

    iya kang….kalau masih ada yg belum jelas tanya aja yah :D heheheh bakawanlah kita :D

  4. buJaNG on April 14th, 2009 10:01 pm

    Wow, mantep nih tutorialnya… Ditunggu pembahasan bagian akhirnya

    iya…sy jg lagi mencoba menyelesaikan heheheh karena kemungkinan agak rumit, dicoba ditulis semudah mungkin :D

  5. Omiyan on April 15th, 2009 4:40 am

    wah asyik banget ulasannya mas…dan saya tertarik nih buat ulasannya yang akan muncul..pas baca ini nih…Musuh terbesar blogger yg pakai blog wordpress itu adalah sistem permalink pencarian wordpress (biasanya pakai s=? atau /search/ di url link). Mereka adalah penyumbang duplikat konten terbesar. Masalah ini akan dibahas dalam posting terpisah karena mulai spesifik customisasi wordpress sih…

    saya tunggu lho

    mkasih euy. Mungkin minggu2 ini udah selesai. doain aja yah :D

  6. masarif on April 15th, 2009 6:30 am

    Ini
    1. /search/
    2. ?s=
    3. index.php?s=

    Juga bisa membantu uniqe visitor lo..

    iya mah, tp kan merujuk ke halaman yg sama. Jadi sekalipun ingin hasil pencarian itu ada di SERP google, kan lebih baik kalau cuma ada satu url. karena beda url beda pagerank sekalipun merujuk ke konten yg sama

  7. antown on April 15th, 2009 6:50 am

    *belum ngerti nih…
    yang penting semgt hehe..
    ada postingan baru lho

    oke bro….sy meluncur ke sana hehehehe :D

  8. galih on April 15th, 2009 9:10 am

    wah kira-kira tau nggak mas kesalahan pada blog cuci mata say..
    kok nggak pernah dapet PR lagi ya semenjak ditabok gugel jadi nol..
    hehheehhe
    kabur

    wah kurang tau tren….masalahnya sy ngak tau detail sejarah blog kamu euy. Apalagi rasanya, sy ngak seahli itu deh heheheh google pagerank juga masih belajar :D.

  9. Basyarah on April 15th, 2009 10:15 am

    Hebat neh, bagus banget informasi nya, rajin ya sampe mau meng analisa dengan detil

    makasih..sy coba sampe paham banget. Lumayanlah oengetahuan yg kepake waktu ngurus blog kita2

  10. Tuyi on April 16th, 2009 7:36 am

    kunjungan perdana, salam kenal…
    blognya bagus penuh warna..

    makasih…..iya dicoba ngak warna statis atau pastel :D

  11. sawali tuhusetya on April 16th, 2009 10:13 am

    wah, saya bener2 ndak mudheng proses kerja google dalam mengindex blog, mbak. saya juga penasaran nih, rank alexa blog saya kok menurun terus, padahal update postingan berusaha ajeg dan konsisten. jangan2 juga ada error di robot text domain saya, ya, mbak.

    hehehe pak ini mah mas :D sy ngak tau kenapa tp yg pasti traffik blog bapak tuh lagi turun kayaknya. Memang seperti itu…krisis semua

  12. Bakawan Web Design | Robot.txt Blokir Supplement Result on April 17th, 2009 11:40 pm

    [...] halaman kita itu rutin bisa diakses dgn banyak variasi struktur permalink. Mungkin kamu masih ingat url search wp seperti s?=, /search/, index.php?s= [...]

  13. rismaka on April 19th, 2009 9:28 pm

    Analisis yang lengkap, dan njelimet, sampe2 saya pusing sendiri :D

    BTW gan, saya baru ngeh klo google sampe meng-crawl sejauh itu. Banyak yg mengklaim kalau wordpress itu sudah SEO friendly, tapi kok setelah ada analisa di atas bisa diambil kesimpulan wordpress sangat tidak SEO friendly donk?! Kenyataan di lapangan wordpress tetaplah merajai SERP, diakui atau tidak.

    Dan lagi, sepertinya saya agak kurang yakin kalau duplicat content dapat menghambat menurunkan kualitas SEO, karena di beberapa blog wordpress milik saya (yg tidak saya utak atik), saya tetap mendapat peringkat kedua di halaman 1 SERP. Justru di blog yang benar2 saya optimasi malah sebaliknya, jarang ada yg nongol di halaman 1 SERP.

    hmm seo emang sudah seo friendly hehehehe tp ada hal2 yg prlu diperhatikan misalnya struktur url dinamis dan variasinya. mereka membuat posting blog kitaa bisa diakses dari berbagai url

    merujuk pada wordpers….kayaknya sy salah ngomong di koment atas. heheheh wp emang udah bisa setting URL permaink cantik tp kadang malah bisa jadi ctent duplicate

    Lho, ada rismaka di sini. :D

    Buat penulis, makasih nih atas infonya.. (padahal ga ngerti sama sekali apa yg dibahas)
    *Kabuuuuuurrrrr

    lah mau kabur kema bri, internet kan punya bapak saya hahahahah

  14. rismaka on April 19th, 2009 9:30 pm

    Duh gan, saya capek nih kalau mau komen harus bolak balik nulis nama, email, dan URL. Ga bisa ya kolom nama, email, dan website terisi otomatis dengan yg sebelumnya?

    belum bisa euy….heheheh maaf yah….capek dikit ngak apa apa lah :D makasih yg udah mau kayak robot …. ngisi form yg sama berulan ulang…heheh

  15. al-sabaliny on May 15th, 2009 12:10 am

    Wah, asik nich… lagi nyari-nyari info tentang error sitemaps, not found , restricted by robots.txt dan sebangsanya malah nemu blog ini. Ditunggu lanjutannya.

    iya makasih, dan maaf baru bisa jwab sekrang. Harapannya secepatnya sy bisa menyelesaikannya yah. Makasih atas supportnya :D

  16. Quick SEO Tips : Hindari Duplikasi Konten | Bakawan Web Design on May 20th, 2009 7:20 pm

    [...] Tutorial Network Unreachable Robots.txt dan Duplicate Content [...]

  17. an on August 5th, 2009 9:57 pm

    wah masih harus belajar nich tentang robots.txt

    bisa lebih spesifik ga sob

  18. Wiyono on March 10th, 2010 8:41 am

    hampir 2 miggu aku mencari para temen blogger untuk membantu, bagaimana caranya menghilangkan robot text, karena di webmaster tool saya blog rumah tiara, ada robot text dan tertulis angka 12, bagaimana caranya supaya bisa menjadi 0..
    mohon bantuannya, silahkan anda posting di pos komentar saya…ok terimakasih

Leave a Reply




Private
Validated by HTML Validator (based on Tidy)
  1. .:.