--}}
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем

Боты на сайте

CMS, скины, моды, asp.net и пр.
330
6
С друзьями на NN.RU
В социальных сетях
Поделиться
Qavai
19.02.2020
Заметил недавно, что мой сайт активно скачивает бот

"Mozilla/5.0 (compatible; statdom.ru/Bot; +http://statdom.ru/bot.html)"

IP = 212.193.117.251

Я обычно блокирую безполезных ботов через htaccess
Ибо они грузят сервак, а данные воруют и мне их результаты не видны и не нужны.
Да и просто не хочется попадать в чей-то кеш, а ещё и чтобы меня анализировали.
А тут раз и увидел, какой-то бот, наверняка связанных с правителями, аж противно стало.

Вот мой код:

RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} Updownerbot [OR]
RewriteCond %{HTTP_USER_AGENT} KaloogaBot [OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} statdom\.ru\/Bot [OR]
RewriteCond %{QUERY_STRING} (cmd=ls|www.google.com/humans.txt)
RewriteRule .* - [R=400,L]


Это было давно, сейчас могут появиться новые боты.

Каких ботов вы режете?







================================>
statdom.ru/bot.html

Роботы проекта Домены России
Проект Домены России использует ряд программно-аппаратных решений (роботов, ботов, пауков) для сбора данных об инфраструктуре российских и международных сегментов Интернета.

Веб
User-Agent: "Mozilla/5.0 (compatible; statdom.ru/Bot; +https://statdom.ru/bot.html)"
Данный идентификатор в HTTP-запросах относится к семейству роботов, предназначенных для сбора статистической информации о веб-сайтах и веб-технологиях.

Роботы получают и анализируют доступную информацию о контенте веб-страниц, об используемых системах управления контентом (CMS), о типах и версиях веб-сервера, присутствии различных веб-скриптов и характерных HTML-конструкций. Роботы могут соединяться с веб-сервером как по HTTP (80/tcp), так и по защищённой версии этого протокола - HTTPS (443/tcp). Опрос сайта включает набор GET-запросов: к файлу robots.txt, к индексной странице (ресурс /), к другим страницам сайта, ссылки на которые удалось обнаружить в составе индексной страницы. Роботы подчиняются директивам Crawl-delay из файла robots.txt.

Подмножество исследуемых узлов формируется следующим образом:

Для каждого из делегированных доменов определяется IP-адрес узла, путём отправки DNS-запроса на извлечение A-записи к соответствующему авторитативному NS-серверу;
Домены, для которых IP-адрес получить не удалось, относятся к категории «Не распознан»;
Если IP-адрес определен успешно, на него отправляется набор HTTP-запросов. Анализируются результаты ответов веб-сервера, в том числе, со статусом 200 OK или HTTP-редиректами различного типа (с глубиной не более трёх).
То есть, в список исследуемых веб-узлов попадают публично доступные веб-серверы, адреса которых опубликованы в глобальной системе доменных имён.

Нагрузка от одного визита робота сопоставима с той, которую создаёт реальный посетитель сайта, открывший главную страницу и последовательно просмотревший несколько других страниц. Опросы каждого исследуемого веб-узла производятся не чаще нескольких раз в месяц.

Для того, чтобы исключить какой-либо сайт из числа опрашиваемых роботом, администратору сайта следует на уровне конфигурации веб-сервера или файлов управления доступом (.htaccess) запретить любые HTTP-запросы с IP-адресов бота.

TLS
Для сбора общедоступных сведений, характеризующих внедрение технологий защиты информации в Рунете, в частности о технологиях TLS, используется другой специализированный бот. Данный бот генерирует запросы, отправляемые на номера портов 443, 465, 25 по протоколу TCP. Запросы содержат TLS Handshake, однако робот в подавляющем большинстве случаев не устанавливает TLS-соединение.

Система определяет настройки TLS-серверов по большому количеству параметров, среди которых: используемые шифронаборы и их свойства, криптографические параметры сервера, SSL-сертификаты. В настоящее время основное направление работы системы - узлы, потенциально доступные по протоколу HTTPS (443/tcp). HTTPS, работающий на базе TLS, является ключевым протоколом обеспечения защиты информации в вебе.

Активность системы сводится к обмену с сервером несколькими TLS-сообщениями, в рамках одного TCP-соединения (в некоторых случаях возможны параллельные соединения к одному физическому серверу, на котором расположено несколько TLS-узлов). После получения необходимого ответа сервера, система немедленно закрывает TCP-соединение. Отправка сообщений (Alert) на уровне TLS не производится - это обусловлено массовым характером запросов: далеко не все потенциально доступные узлы корректно поддерживают TLS. Так как опрос узлов проводится с разными именами, указываемыми в расширении TLS SNI, на один узел может поступать несколько последовательных запросов. Типичный объём обмена данными составляет 5-12 килобайт. Такая активность не представляет большой нагрузки на сервер, так как эквивалентна малой части типичного сеанса работы браузера с веб-сайтом по протоколу HTTPS.

Список узлов формируется на основе данных из системы доменных имён: выбираются узлы, на которые указывают A-записи для доменов второго уровня в исследуемых зонах, определяется доступность по 443/tcp, после чего проводится опрос доступных узлов.

Система мониторинга параметров TLS работает на уровне TCP, без установления соединений уровня приложений. Таким образом, ограничение доступа к тем или иным узлам при помощи файлов robots.txt и им подобных - не представляется возможным. Если по какой-то причине системные администраторы или специалисты NOC полагают, что доступ системы к узлам в их сети должен быть ограничен, такое ограничение следует вводить непосредственно на сетевом оборудовании, обычно на пограничном маршрутизаторе, указав в политике доступа для IP-адреса бота запрет на TCP-соединение по номеру порта 443 (465, 25).

DNS
Сбор информации из системы (сервиса) доменных имён проводится DNS-роботами. В группу данных роботов входит выделенный рекурсивный резолвер и бот, непосредственно опрашивающий заданные серверы имён. Роботы обращаются только к узлам, так или иначе связанным с DNS. Список узлов формируется на основании публичной информации из DNS. Обращение возможно по протоколам UDP и TCP, на номера портов 53 и 853, с запросами о различных ресурсных записях DNS.

DNS-роботы собирают сведения об адресации внутри доменных зон разного уровня, а также определяют настройки серверов DNS и уровень их доступности (в том числе, по IPv4/IPv6). Запрашиваются записи: SOA, A, AAAA, MX, TXT, NS и другие.

Активность DNS-роботов сравнима с работой обычного рекурсивного резолвера, отличаясь от него только составом запрашиваемых записей, и не создаёт какой-то аномальной нагрузки на серверы DNS.

SMTP
EHLO stat-tls.vrteam.ru
Робот, анализирующий свойства почтовых серверов, устанавливает соединение по протоколу TCP на номер порта 25. Данный робот дожидается открытия SMTP-сессии и запрашивает список декларируемых параметров сервера при помощи команды EHLO. После получения сведений - робот закрывает соединение отправкой команды QUIT (с последующим закрытием сессии TCP).

SMTP-робот сохраняет серверное приветствие и декларируемый список поддерживаемых параметров, а кроме того, измеряет ряд характеристик соединения (например, время ожидания приветствия). Попыток доставки почтовых сообщений не предпринимается.

Использование результатов
Результаты, собранные роботами, используются для формирования различных аналитических отчётов организациями - участниками проекта Домены России. В частности, статистика развития российских национальных доменных зон, построенная на основе обхода веб-узлов и сбора сведений о TLS, публикуется на сайте проекта (statdom.ru). Собранные данные служат для количественной оценки показателей внедрения различных технологических решений в Рунете, а также для определения динамики изменения показателей во времени.
FreeCat
20.02.2020
+3
у мня списочек за 30 строк уже :) ...
Боты, не скрывающие того что они боты (у которых в юзерагенте указано что они боты), обычно и robots.txt слушаются. Остальные подделывают юзерагент и вычислить их сложнее.
FreeCat
22.02.2020
+4
BrainFucker писал(а)
обычно и robots.txt слушаются

увы, далеко не все :(
Да, бывает игнорируют директиву Crawl-delay. Её, кстати, долбаный Яндекс тоже стал игнорировать, ддося сервер, пытаясь самостоятельно выяснить предел (у них официально в документации это даже написано). Так и хочется его забанить.
FreeCat
23.02.2020
+13
да он давно уже её игнорирует :( . то же самое желаение было ... но уж больно надолго из поиска потом он страницы убирает *pardon* .
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем
Последние темы форумов
Переменный вольтметр Э8021

Вольтметр переменный Э8021 Отправка в регионы после оплаты. Измерительные головки для радиолюбителей Э8021 НОВЫЕ не...
Цена: 500 руб.

Мощный трансформатор ТПП-317-127/220-50

Трансформатор ТПП-317-127/220-50 Мощный трансформатор до 18 ампер Особенность данного трансформатора большой ток 18А Сердечник:...
Цена: 2 200 руб.

Прибор -цифровой мультиметр BENNING MM11

Цифровой мультиметр BENNING MM11 Отправка в регионы после оплаты. Made in Germany - Германия. Цена 19000 руб. ТОРГА...
Цена: 19 000 руб.

Конденсатор Ионистор Производитель: Elna

Ионистор Производитель: Elna America 22 штуки. Цена 250 рубшт. Супер конденсатор Ионисторы 1F*5,5 V ELNA 1 Ф, 5.5 В 1 фарад =...
Цена: 250 руб.