Saat ini sy sedang mempelajari error apa yg saja mungkin terjadi saat proses googlebot indexing : proses bot google menjelajah setiap halaman pada blog bakawan ini. Salah satu yg pernah terjadi adalah Network unreachable. Menurut answer.py google, arti error jaringan tak tergapai bisa disebabkan Google mengalami timeout atau DNS error saat mengakses URL. Lebih lanjut, google mengira kalau server kami itu sedang down atau sibuk saat googlebot akses url halaman web tsb.
Menurut bacaan yg sy baca, masalah ini selalu berarti ada masalah pada routing. Mungkin saja ada gateway address tidak berada pada submet yg sama dengan alamat IP kita. jadi sy curiga kalau masalah network tak tergapai googlebot ini lebih disebabkan masalah down server di perusahaan web hosting tempat kami nyewa server.
Kecurigaan kedua bukan menjurus pd server down melainkan kekacauan yg disebabkan robots.txt. Sy takut konfigurasi robot.txt kami yg kemarin baru saja ditulis itu ternyata mengusir setiap bot baik dari mengakses homepage blog kami.
Kode robots.txt (ingat inilah namanya dan bukan robot.txt)
Sitemap: http://www.bakawan.com/log/sitemap.xml User-agent: Googlebot Disallow: /log/*/trackback Disallow: /log/*/feed Disallow: /log/*/comments Disallow: /log/*?* Disallow: /log/*? Disallow: /log/search User-agent: * Disallow: /cgi-bin/ Disallow: /log/wp-admin/ Disallow: /log/wp-includes/ Disallow: /log/wp-content/plugins/ Disallow: /log/wp-content/themes/ Disallow: /log/trackback Disallow: /log/comments Disallow: /log/feed
Oleh karenanya, sy mencoba memverifikasi memanfaatkan tool Analyze robots.txt, yg disediakan Google Webmaster Tool. Tool ini bisa dimanfaatkan mengetes robots.txt saat memblok url. Tes ini bisa dilakukan pada berbagai Google user-agents sehingga kita bisa mengetahui apakah hak akses googlebot itu sudah sesuai.
Kebetulan ada 3 link yg dinyatakan google bermasalah saat ini. Jadi sy tes dengan tool barusan dan hasilnya :
Penjelasan link bermasalah nomor 1. Link itu adalah contoh struktur permalink wordpress. Kami membloknya secara sengaja demi menghindari masalah seo lainnya yaitu duplicate content atau duplikasi konten.
Bila kita menemukan huruf ?s= di sebuah url (Uniform Resource Locator), maka jelas kalau link itu merujuk pada halaman hasil pencarian. (CMS drupal menggunakan ?q= (kalau enggak salah?)). Sy ingin memblok akses bot pada halaman pencarian website sy.
Link nomor 2 dan 3 adalah format permalink s?= versi baru. Sy memanfaatkan plugin search permalink wp untuk mengubahnya menjadi lebih human friendly. Efeknya ? nambah lagi redirection sehingga akses visitor menuju halaman yg dicari itu lebih lambat dari sebelumnya. (kayaknya mau di off aja dulu plugin ini :D tp nunggu cache SERP berubah dulu hehehhe)
Sejujurnya sy ingin sekali membuang seluruh halaman website hasil pencarian di blog saya ini. Alasannya sederhana mereka itu lebih mirip duplicate content daripada sesuatu yg berguna. Selain mengkontaminasi SERP pencarian, duplicate content merusak pagerank internal dan membuatnya berceceran ke mana mana.
Coba bayangkan (awal april 2009) ada 4000 page yg dimiliki blog ini padahal menurut blog statistik yg otomatis tertera di about us, seharusnya halaman blog ini cuma ada +400. Jadi bila sampai 4000, maka ada penggelembungan sampai 10 kali lipat. sebuah kerusakan SEO blog yg luar biasa. :(
Kamu bisa mengecek seberapa rusak blog kamu dengan bantuan query google ini [site:domain.tld]. Contohnya site:www.bakawan.com. Perintah ini akan menampilkan seluruh halaman blog bakawan yg sudah pernah diindex google.
Hasil pengetesan lainnya (tidak akan dibahas) :
Sesuai dengan keanehan pagerank yg sy tulis sebelumnya pada artikel Beda URL kok Beda Pagerank? hasil allowed dan not in domain ini disebabkan konfigurasi .htaccess yg sy pasang di root website ini. Sy meredirect seluruh akses pada domain bakawan.com/log/ ke yg berakhiran www. Biasanya sih orang melakukan keputusan yg sebaliknya tp sy tidak disebabkan masalah yg belum bisa sy jelaskan saat ini hehehehe.
Catatan SEO
Musuh terbesar blogger yg pakai blog wordpress itu adalah sistem permalink pencarian wordpress (biasanya pakai s=? atau /search/ di url link). Mereka adalah penyumbang duplikat konten terbesar. Masalah ini akan dibahas dalam posting terpisah karena mulai spesifik customisasi wordpress sih. :D
Tags: Apache, Google, Google WebMaster Tool, SEO, Tutorial, Webmaster, Wordpress
40 Responses to “Tutorial Network Unreachable, robots.txt, dan Duplicate Content”
Leave a Reply
bukannya page banyak karena tag juga?
iya….makanya sejak awal sy udah memilih kalau blog ini cuma mengandalkan tag dan tanpa dukungan category. See bakawan kategory pd http://www.bakawan.com/log/category/uncategorized/
sementara soal search yg biasanya permalinknya bisa ada 3, yaitu
1. /search/
2. ?s=
3. index.php?s=
mau dioffin karena menjadi penyumbang halaman baru. sy pribadi lebih suka semua ini ngak ada. hohoho tunggu deh kalau artikelnya udah beres :D
kalau saya pribadi, saya tidak ambil pusing karena duplicate content ini. seharusnya google tahu apa hasil pencarian dengan halaman normal. karena visitor pasti butuh kotak search.
sayangnya google engak tau. ada solusi sih pake canonical link tp soal ini sy ngak gitu yakin karena baru tahap percobaan doank.
iya, visitr butuh yg namanya kotak search. Tp bukankah lebih baik bila hasil pencarian mereka enggak kelihatan di SERP google.
setelah saya rimang-rimangi(bahasa bataknya memperhatikan dan menganalisa) isi robots.txt diatas, bukankah seharusnya tidak ada masalah?
iya seharusnya ngak ada masalah….Kayaknya ngak pada robot.txt tp lebih mungkin ada masalah di server yg diluar kendali kita (tanggung jawab web hosting). server kan ngak selalu up 100 persen. jujur gands, ngak bisa kasih jawaban pasti….mungkin 3 link itu cuma anomali gara2 perubahan robots.txt yg tiba2 (sebelumnya belum bikin)
hmm… benar juga.. benar2 harus pelajari dari core lagi.. tapee deh… hahahahaha
wah gitu ya ribet juga ya metodenya
sekilas sih iya belik artha. Tp kalau paham konsep mungkin akan lebih mudah. Apalagi duplicate conten itu masalah yg ngak cuma terkait sama bagaimana wp kita bekerja tetapi juga bagaimana google mengindex blog wp kita kan ?
Wah tengkiu infonya, Wi.
Insya Allah, bulan depan, kalau jadi, gw mo self hosting pake mesin WP nih.
Berguna banget, kalau nanti blog gw problem.
iya kang….kalau masih ada yg belum jelas tanya aja yah :D heheheh bakawanlah kita :D
Wow, mantep nih tutorialnya… Ditunggu pembahasan bagian akhirnya
iya…sy jg lagi mencoba menyelesaikan heheheh karena kemungkinan agak rumit, dicoba ditulis semudah mungkin :D
wah asyik banget ulasannya mas…dan saya tertarik nih buat ulasannya yang akan muncul..pas baca ini nih…Musuh terbesar blogger yg pakai blog wordpress itu adalah sistem permalink pencarian wordpress (biasanya pakai s=? atau /search/ di url link). Mereka adalah penyumbang duplikat konten terbesar. Masalah ini akan dibahas dalam posting terpisah karena mulai spesifik customisasi wordpress sih…
saya tunggu lho
mkasih euy. Mungkin minggu2 ini udah selesai. doain aja yah :D
Ini
1. /search/
2. ?s=
3. index.php?s=
Juga bisa membantu uniqe visitor lo..
iya mah, tp kan merujuk ke halaman yg sama. Jadi sekalipun ingin hasil pencarian itu ada di SERP google, kan lebih baik kalau cuma ada satu url. karena beda url beda pagerank sekalipun merujuk ke konten yg sama
*belum ngerti nih…
yang penting semgt hehe..
ada postingan baru lho
oke bro….sy meluncur ke sana hehehehe :D
wah kira-kira tau nggak mas kesalahan pada blog cuci mata say..
kok nggak pernah dapet PR lagi ya semenjak ditabok gugel jadi nol..
hehheehhe
kabur
wah kurang tau tren….masalahnya sy ngak tau detail sejarah blog kamu euy. Apalagi rasanya, sy ngak seahli itu deh heheheh google pagerank juga masih belajar :D.
Hebat neh, bagus banget informasi nya, rajin ya sampe mau meng analisa dengan detil
makasih..sy coba sampe paham banget. Lumayanlah oengetahuan yg kepake waktu ngurus blog kita2
kunjungan perdana, salam kenal…
blognya bagus penuh warna..
makasih…..iya dicoba ngak warna statis atau pastel :D
wah, saya bener2 ndak mudheng proses kerja google dalam mengindex blog, mbak. saya juga penasaran nih, rank alexa blog saya kok menurun terus, padahal update postingan berusaha ajeg dan konsisten. jangan2 juga ada error di robot text domain saya, ya, mbak.
hehehe pak ini mah mas :D sy ngak tau kenapa tp yg pasti traffik blog bapak tuh lagi turun kayaknya. Memang seperti itu…krisis semua
[...] halaman kita itu rutin bisa diakses dgn banyak variasi struktur permalink. Mungkin kamu masih ingat url search wp seperti s?=, /search/, index.php?s= [...]
Analisis yang lengkap, dan njelimet, sampe2 saya pusing sendiri :D
BTW gan, saya baru ngeh klo google sampe meng-crawl sejauh itu. Banyak yg mengklaim kalau wordpress itu sudah SEO friendly, tapi kok setelah ada analisa di atas bisa diambil kesimpulan wordpress sangat tidak SEO friendly donk?! Kenyataan di lapangan wordpress tetaplah merajai SERP, diakui atau tidak.
Dan lagi, sepertinya saya agak kurang yakin kalau duplicat content dapat menghambat menurunkan kualitas SEO, karena di beberapa blog wordpress milik saya (yg tidak saya utak atik), saya tetap mendapat peringkat kedua di halaman 1 SERP. Justru di blog yang benar2 saya optimasi malah sebaliknya, jarang ada yg nongol di halaman 1 SERP.
hmm seo emang sudah seo friendly hehehehe tp ada hal2 yg prlu diperhatikan misalnya struktur url dinamis dan variasinya. mereka membuat posting blog kitaa bisa diakses dari berbagai url
merujuk pada wordpers….kayaknya sy salah ngomong di koment atas. heheheh wp emang udah bisa setting URL permaink cantik tp kadang malah bisa jadi ctent duplicate
Lho, ada rismaka di sini. :D
Buat penulis, makasih nih atas infonya.. (padahal ga ngerti sama sekali apa yg dibahas)
*Kabuuuuuurrrrr
lah mau kabur kema bri, internet kan punya bapak saya hahahahah
Duh gan, saya capek nih kalau mau komen harus bolak balik nulis nama, email, dan URL. Ga bisa ya kolom nama, email, dan website terisi otomatis dengan yg sebelumnya?
belum bisa euy….heheheh maaf yah….capek dikit ngak apa apa lah :D makasih yg udah mau kayak robot …. ngisi form yg sama berulan ulang…heheh
Wah, asik nich… lagi nyari-nyari info tentang error sitemaps, not found , restricted by robots.txt dan sebangsanya malah nemu blog ini. Ditunggu lanjutannya.
iya makasih, dan maaf baru bisa jwab sekrang. Harapannya secepatnya sy bisa menyelesaikannya yah. Makasih atas supportnya :D
[...] Tutorial Network Unreachable Robots.txt dan Duplicate Content [...]
wah masih harus belajar nich tentang robots.txt
bisa lebih spesifik ga sob
hampir 2 miggu aku mencari para temen blogger untuk membantu, bagaimana caranya menghilangkan robot text, karena di webmaster tool saya blog rumah tiara, ada robot text dan tertulis angka 12, bagaimana caranya supaya bisa menjadi 0..
mohon bantuannya, silahkan anda posting di pos komentar saya…ok terimakasih