Немалую роль при индексации сайта поисковыми машинами играет файл robots.txt. Поисковая система с помощью этого файла определяет, какие страницы или папки на сайте следует проиндексировать, а какие нет.
В файле robots.txt применяется формат сценариев UNIX, а в режиме ASCII производится сама установка файла на веб-сайт.
Файл robots.txt представляет из себя текстовую запись, первая строка которой обычно содержит имя поискового бота, для которого предназначается этот файл, либо разрешение индексации для всех поисковых роботов.
В первом случае это будет выглядеть так:
User-agent: «имя робота, набранное латинскими буквами и в нижнем регистре».
А так будет выглядеть срока, если к индексации допущены все поисковые роботы:
User-agent: * (где знак «*» говорит о том, что доступ к индексации разрешен всем роботам).
Вторая строка содержит в себе указания о том, какое действие выполнять для каждого файла или директории:
Disallow (запрет на индексацию): имя файла или директории, или же
Allow (разрешение на индексацию): имя файла или директории.
Нужно упомянуть, что файлы, которые запрещены либо разрешены к индексации, нельзя перечислять в одной строке – поисковый робот может по ошибке не воспринять правильно команду. Поэтому для каждого файла необходимо добавлять новую строку
Также в данный файл можно добавлять комментарии, они будут обозначаться знаком «#».
На первый взгляд, правила для написания кода довольно просты, но не следует их недооценивать, так как одна маленькая ошибка в коде может привести либо к запрету индексации абсолютно всех страниц сайта, либо к разрешению индексации разделов сайта, которые изначально не были запланированы для индексации.