Robots.txt tidak lebih sebagai semacam robot virtual yang diberi akses oleh search engine untuk menjelajahi sebuah web atau blog. Tugas robot ini adalah hanyalah memeriksa keberadaan robots.txt untuk mendeteksi halaman-halaman tertentu, diblokir atau tidak. Untuk memastikan halaman anda diblokir atau tidak, kunjungi webmaster tool dan lihat Blocked Url page yang ditelusuri oleh robots.
Sebenarnya menggunakan robots.txt adalah sebuah pilihan. Robots.txt digunakan hanya jika anda menginginkan semua robots yang ada masuk ke blog untuk memberitahu search engine mana yang perlu dan mana yang tidak (diblokir) diindex dan informasi lainnya. Intinya, anda memerlukan robots.txt hanya jika anda tidak menginginkan search engine menjelajahi atau mengindeks halaman-halaman atau informasi tertentu pada blog anda. Sebaliknya, jika anda ingin semua halaman dan informasi yang ada pada blog terindeks, maka anda tidak memerlukan robots.txt. Namun demikian, search engin dan Googe akan tetap mengindeks jika ditemukan ada url baru dan memunculkannya di hasil pencarian Google.
Secara default, setiap akun berplatform blogspot memiliki robots.txt seperti berikut:
User-agent: *
Disallow: /search
Allow: /
Tanda * (bintang) memberitahu para robots untuk mengikuti perintah anda.
Baris kedua memberitahu para robots apa saja yang tidak dapat mereka masuki. Tanda / (slash) memerintahkan robots untuk tidak membaca atau mengindeks halaman tertentu. Kata “search” berarti link yang mempunyai keyword search akan diacuhkan. Lihat contoh dibawah:
http://www.example.com/search/label/Tricks
namun jika kita menghilangkan Disallow: /search maka robots mempunyai akses untuk mengindeks seluruh isi blog.
Tapi jika anda tidak ingin mengindex halaman tertentu, maka anda hanya cukup memasukkan nama halamannya, misalkan anda tidak ingin halaman
http://example.blogspot.com/nama_halaman.html.
terindeks, maka yang harus anda tulis adalah “Disallow: /p/nama_halaman.html.” Cara lain yang tidak terlalu berbeda adalah dengan memasukkan tahun dan bulan penerbitan posting. Misalkan anda mempunyai sebuah posting berikut:
http://example.blogspot.com/2013/05/post-url.html.
Maka yang harus anda tulis menjadi “Disallow:/2013/05/post-url.html.” Namun jika anda ingin semua halaman terindeks, hilangkan saja tanda (/) dengan menyisakan Disallow-nya saja. Dan yang terpenting adalah berhati-hati dalam penggunaan robots.txt ini karena jika salah, maka blog anda akan dicuekin oleh search engine.
Dan yang terakhir adalah “Allow: /.” Kode ini hanya merujuk pada Homepage yang berarti robots hanya akan menjelajahi dan mengindeks homepage saja.
Untuk informasi lebih lanjut, kunjungi pengenalan robots dan case study robots. Atau anda dapat membuat robots generator online di Mcanerin, Yellowpipe, webtools, 1pagedesign dan robotsgenerator.