--}}
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем

Боты на сайте

CMS, скины, моды, asp.net и пр.
330
6
С друзьями на NN.RU
В социальных сетях
Поделиться
Qavai
19.02.2020
Заметил недавно, что мой сайт активно скачивает бот

"Mozilla/5.0 (compatible; statdom.ru/Bot; +http://statdom.ru/bot.html)"

IP = 212.193.117.251

Я обычно блокирую безполезных ботов через htaccess
Ибо они грузят сервак, а данные воруют и мне их результаты не видны и не нужны.
Да и просто не хочется попадать в чей-то кеш, а ещё и чтобы меня анализировали.
А тут раз и увидел, какой-то бот, наверняка связанных с правителями, аж противно стало.

Вот мой код:

RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} Updownerbot [OR]
RewriteCond %{HTTP_USER_AGENT} KaloogaBot [OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} statdom\.ru\/Bot [OR]
RewriteCond %{QUERY_STRING} (cmd=ls|www.google.com/humans.txt)
RewriteRule .* - [R=400,L]


Это было давно, сейчас могут появиться новые боты.

Каких ботов вы режете?







================================>
statdom.ru/bot.html

Роботы проекта Домены России
Проект Домены России использует ряд программно-аппаратных решений (роботов, ботов, пауков) для сбора данных об инфраструктуре российских и международных сегментов Интернета.

Веб
User-Agent: "Mozilla/5.0 (compatible; statdom.ru/Bot; +https://statdom.ru/bot.html)"
Данный идентификатор в HTTP-запросах относится к семейству роботов, предназначенных для сбора статистической информации о веб-сайтах и веб-технологиях.

Роботы получают и анализируют доступную информацию о контенте веб-страниц, об используемых системах управления контентом (CMS), о типах и версиях веб-сервера, присутствии различных веб-скриптов и характерных HTML-конструкций. Роботы могут соединяться с веб-сервером как по HTTP (80/tcp), так и по защищённой версии этого протокола - HTTPS (443/tcp). Опрос сайта включает набор GET-запросов: к файлу robots.txt, к индексной странице (ресурс /), к другим страницам сайта, ссылки на которые удалось обнаружить в составе индексной страницы. Роботы подчиняются директивам Crawl-delay из файла robots.txt.

Подмножество исследуемых узлов формируется следующим образом:

Для каждого из делегированных доменов определяется IP-адрес узла, путём отправки DNS-запроса на извлечение A-записи к соответствующему авторитативному NS-серверу;
Домены, для которых IP-адрес получить не удалось, относятся к категории «Не распознан»;
Если IP-адрес определен успешно, на него отправляется набор HTTP-запросов. Анализируются результаты ответов веб-сервера, в том числе, со статусом 200 OK или HTTP-редиректами различного типа (с глубиной не более трёх).
То есть, в список исследуемых веб-узлов попадают публично доступные веб-серверы, адреса которых опубликованы в глобальной системе доменных имён.

Нагрузка от одного визита робота сопоставима с той, которую создаёт реальный посетитель сайта, открывший главную страницу и последовательно просмотревший несколько других страниц. Опросы каждого исследуемого веб-узла производятся не чаще нескольких раз в месяц.

Для того, чтобы исключить какой-либо сайт из числа опрашиваемых роботом, администратору сайта следует на уровне конфигурации веб-сервера или файлов управления доступом (.htaccess) запретить любые HTTP-запросы с IP-адресов бота.

TLS
Для сбора общедоступных сведений, характеризующих внедрение технологий защиты информации в Рунете, в частности о технологиях TLS, используется другой специализированный бот. Данный бот генерирует запросы, отправляемые на номера портов 443, 465, 25 по протоколу TCP. Запросы содержат TLS Handshake, однако робот в подавляющем большинстве случаев не устанавливает TLS-соединение.

Система определяет настройки TLS-серверов по большому количеству параметров, среди которых: используемые шифронаборы и их свойства, криптографические параметры сервера, SSL-сертификаты. В настоящее время основное направление работы системы - узлы, потенциально доступные по протоколу HTTPS (443/tcp). HTTPS, работающий на базе TLS, является ключевым протоколом обеспечения защиты информации в вебе.

Активность системы сводится к обмену с сервером несколькими TLS-сообщениями, в рамках одного TCP-соединения (в некоторых случаях возможны параллельные соединения к одному физическому серверу, на котором расположено несколько TLS-узлов). После получения необходимого ответа сервера, система немедленно закрывает TCP-соединение. Отправка сообщений (Alert) на уровне TLS не производится - это обусловлено массовым характером запросов: далеко не все потенциально доступные узлы корректно поддерживают TLS. Так как опрос узлов проводится с разными именами, указываемыми в расширении TLS SNI, на один узел может поступать несколько последовательных запросов. Типичный объём обмена данными составляет 5-12 килобайт. Такая активность не представляет большой нагрузки на сервер, так как эквивалентна малой части типичного сеанса работы браузера с веб-сайтом по протоколу HTTPS.

Список узлов формируется на основе данных из системы доменных имён: выбираются узлы, на которые указывают A-записи для доменов второго уровня в исследуемых зонах, определяется доступность по 443/tcp, после чего проводится опрос доступных узлов.

Система мониторинга параметров TLS работает на уровне TCP, без установления соединений уровня приложений. Таким образом, ограничение доступа к тем или иным узлам при помощи файлов robots.txt и им подобных - не представляется возможным. Если по какой-то причине системные администраторы или специалисты NOC полагают, что доступ системы к узлам в их сети должен быть ограничен, такое ограничение следует вводить непосредственно на сетевом оборудовании, обычно на пограничном маршрутизаторе, указав в политике доступа для IP-адреса бота запрет на TCP-соединение по номеру порта 443 (465, 25).

DNS
Сбор информации из системы (сервиса) доменных имён проводится DNS-роботами. В группу данных роботов входит выделенный рекурсивный резолвер и бот, непосредственно опрашивающий заданные серверы имён. Роботы обращаются только к узлам, так или иначе связанным с DNS. Список узлов формируется на основании публичной информации из DNS. Обращение возможно по протоколам UDP и TCP, на номера портов 53 и 853, с запросами о различных ресурсных записях DNS.

DNS-роботы собирают сведения об адресации внутри доменных зон разного уровня, а также определяют настройки серверов DNS и уровень их доступности (в том числе, по IPv4/IPv6). Запрашиваются записи: SOA, A, AAAA, MX, TXT, NS и другие.

Активность DNS-роботов сравнима с работой обычного рекурсивного резолвера, отличаясь от него только составом запрашиваемых записей, и не создаёт какой-то аномальной нагрузки на серверы DNS.

SMTP
EHLO stat-tls.vrteam.ru
Робот, анализирующий свойства почтовых серверов, устанавливает соединение по протоколу TCP на номер порта 25. Данный робот дожидается открытия SMTP-сессии и запрашивает список декларируемых параметров сервера при помощи команды EHLO. После получения сведений - робот закрывает соединение отправкой команды QUIT (с последующим закрытием сессии TCP).

SMTP-робот сохраняет серверное приветствие и декларируемый список поддерживаемых параметров, а кроме того, измеряет ряд характеристик соединения (например, время ожидания приветствия). Попыток доставки почтовых сообщений не предпринимается.

Использование результатов
Результаты, собранные роботами, используются для формирования различных аналитических отчётов организациями - участниками проекта Домены России. В частности, статистика развития российских национальных доменных зон, построенная на основе обхода веб-узлов и сбора сведений о TLS, публикуется на сайте проекта (statdom.ru). Собранные данные служат для количественной оценки показателей внедрения различных технологических решений в Рунете, а также для определения динамики изменения показателей во времени.
FreeCat
20.02.2020
+3
у мня списочек за 30 строк уже :) ...
Боты, не скрывающие того что они боты (у которых в юзерагенте указано что они боты), обычно и robots.txt слушаются. Остальные подделывают юзерагент и вычислить их сложнее.
FreeCat
22.02.2020
+4
BrainFucker писал(а)
обычно и robots.txt слушаются

увы, далеко не все :(
Да, бывает игнорируют директиву Crawl-delay. Её, кстати, долбаный Яндекс тоже стал игнорировать, ддося сервер, пытаясь самостоятельно выяснить предел (у них официально в документации это даже написано). Так и хочется его забанить.
FreeCat
23.02.2020
+13
да он давно уже её игнорирует :( . то же самое желаение было ... но уж больно надолго из поиска потом он страницы убирает *pardon* .
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем
Последние темы форумов
Форум Тема (Автор) Последний ответ Ответов
Медицина Феринжект   -  LOE-NN 08.09.2024 в 18:38:45 3
Подкладка КБ65 бу ГОСТ 16277-93 предлагаем к отгрузке

Подкладка КБ-65 ГОСТ 16277-2016, на складе в нескольких вариантах: новая, б/у. Доставка по России, или на самовывоз, с нашего...

Прибор Мультиметр Chauvin Arnoux c.A 5260

Мультиметр "chauvin arnoux c.A 5260"- франция Производитель: chauvin arnoux, франция гост реестр рф: 20275-07 лежал в...
Цена: 18 000 руб.

Прибор -цифровой мультиметр BENNING MM11

Цифровой мультиметр BENNING MM11 Отправка в регионы после оплаты. Made in Germany - Германия. Цена 19000 руб. ТОРГА...
Цена: 19 000 руб.

Переменный вольтметр Э8021

Вольтметр переменный Э8021 Отправка в регионы после оплаты. Измерительные головки для радиолюбителей Э8021 НОВЫЕ не...
Цена: 500 руб.

Продавец-консультант (Нижний Новгород, ТЦ Сормовские Зори) Розничная сеть МТС
38000 -
51000 руб.
Среднее образование, без опыта, полная занятость
Специалист в отдел поддержки клиентов Билайн
от 23 500 руб.
Среднее образование, без опыта, полная занятость
Продавец-консультант (Нижний Новгород, ТЦ Сормовский) Розничная сеть МТС
38000 -
51000 руб.
Среднее образование, без опыта, полная занятость
Продавец-консультант (Нижний Новгород, ТЦ Новый Век) Розничная сеть МТС
38000 -
51000 руб.
Среднее образование, без опыта, полная занятость