Немалую роль при индексации сайта поисковыми машинами играет файл robots.txt. Поисковая система с помощью этого файла определяет, какие страницы или папки на сайте следует проиндексировать, а какие нет.

В файле robots.txt применяется формат сценариев UNIX, а в режиме ASCII производится сама установка файла на веб-сайт.

Файл robots.txt представляет из себя текстовую запись, первая строка которой обычно содержит имя поискового бота, для которого предназначается этот файл, либо разрешение индексации для всех поисковых роботов.

В первом случае это будет выглядеть так:

User-agent: «имя робота, набранное латинскими буквами и в нижнем регистре».

А так будет выглядеть срока, если к индексации допущены все поисковые роботы:

User-agent: * (где знак «*» говорит о том, что доступ к индексации разрешен всем роботам).

Вторая строка содержит в себе указания о том, какое действие выполнять для каждого файла или директории:

Disallow (запрет на индексацию): имя файла или директории, или же

Allow (разрешение на индексацию): имя файла или директории.

Нужно упомянуть, что файлы, которые запрещены либо разрешены к индексации, нельзя перечислять в одной строке – поисковый робот может по ошибке не воспринять правильно команду. Поэтому для каждого файла необходимо добавлять новую строку

Также в данный файл можно добавлять комментарии, они будут обозначаться знаком «#».

На первый взгляд, правила для написания кода довольно просты, но не следует их недооценивать, так как одна маленькая ошибка в коде может привести либо к запрету индексации абсолютно всех страниц сайта, либо к разрешению индексации разделов сайта, которые изначально не были запланированы для индексации.