Записать реферер с помощью htaccess

Bu-Bu

Любитель PHP
Вот у меня такая же хрень примерно и дошла до 2-й позиции в Яндексе. А оно мне надо? И зачем поисковику вообще отдавать 404-ю ошибку?
 

dimagolov

Новичок
И зачем поисковику вообще отдавать 404-ю ошибку?
ты идиот или прикидываешься? для того, чтобы он не индексировал неправильные ссылки. если этого не делать, то он БУДЕТ их индексировать. и так как контент там получается идентичным заглавной, а ссылок кривых больше, чем праивльных на главную, то они еще и выше в рейтинге попадут у тебя.

еще раз пойми то, что ты увидел на bmclub.ua. Да, страничка выглядит полностью как сайт, только в контенте прописано "не найдено", все шапки и прочее идентичные нормальным. НО отличие в том, что броузер при этом получил не 200 или 3хх, а 404. Броузеру пофиг, он отображает контент ЧЕЛОВЕКУ. Но если это не броузер, а посисковик, то он похерит контент как только увидит 404 и выкинет эту ссылку из индекса.
 

Bu-Bu

Любитель PHP
А если это ссылки с нормальных ресурсов и часть из них нужна просто записана у них некорректно? Зачем я решил записать рефереры? Для того, чтобы отсеять хлам а нужное перебросить на нормальные страницы. Так что идиотизмом здесь не пахнет - нормальное желание извлечь выгоду из всего даже на первый взгляд ненужного. И потом, мой ишак - хочу е..., хочу езжу.
 

dimagolov

Новичок
И потом, мой ишак - хочу е..., хочу езжу.
ну так не жалуйся, что в поисковиках битые ссылки. и рыбку съесть и на х%й сесть не выйдет.

лучшее, что ты можешь сделать, так включать в страницу ошибки ссылку на "правильную" станицу, сообщая юзеру "скорее Вы хотели пойти на эту страницу"
 

Bu-Bu

Любитель PHP
Так у меня и была страница со ссылкой на главную страницу, но это не выход как оказалось. Если щас рефереры поймаются, то сделаю по-своему, если не поймаются и будут писаться по байту, то начну отдавать ошибку 404, хотя повально делать этого по-любому не стоит
 

Армян

Новичок
сам не делал но на сайтах видел такое, да и попробовать можно: отдать страницу 404 и на ней сделать редирект с задержкой(meta, js).

и рыбку съесть и на х%й сесть не выйдет
Если проканает то выйдет :))
 

Bu-Bu

Любитель PHP
Яндекс все-таки тупой. У меня даже в robots.txt прописано, чтобы эти файлы не индексировать, однако он индексирует. Щас начну потихоньку фильтровать это г... хидерами. Однако этот файл (404.shtml) у меня есть на сайте, почему тогда ошибка вылезает?

-~{}~ 11.08.08 17:41:

PHP:
http%3A%2F%2F***.ru%2Fspectehn%2Fattachm.php&text=%E3%E8%E4%F0%EE%ED%EE%E6%ED%E8%F6%FB
Как я и думал - ошибку 404 отдавать не вредно а очень вредно! Вот такой вот реферер пришел с Яндекса и если его отправить на 404, то будет потеряна рабочая ссылка. Щас буду разбираться.
 

dimagolov

Новичок
Вот такой вот реферер пришел с Яндекса и если его отправить на 404
не пояснишь, какое отношение имеет referrer к вопросу о 404 ошибке? если запрос "пришел с Яндекса", то referrer будет содержать что-то вроде http://www.yandex.ru/search?.....
 

Bu-Bu

Любитель PHP
Я отчекрыжил начало запроса, чтобы влез в строку. Запрос точно с Яндекса и сервер сказал 404. Непонятно: почему сервер не интерпретирует эту кодировку а ругается. Придется щас переводить все в обычное представление, чтобы судьбу не испытывать
 

dimagolov

Новичок
Bu-Bu, ты бредишь. то, что ты написал это URL причем криво закодированный. в запросе ничего подобного и близко нету. откуда ты это взял и почему оно у тебя оказалось в таком виде можешь сказать только ты.
чтобы ты не обижался вот тебе стандарт, где описано что такое http request: http://www.w3.org/Protocols/rfc2616/rfc2616-sec5.html
 

Bu-Bu

Любитель PHP
Автор оригинала: dimagolov
Bu-Bu, ты бредишь. то, что ты написал это URL причем криво закодированный. в запросе ничего подобного и близко нету. откуда ты это взял и почему оно у тебя оказалось в таком виде можешь сказать только ты.
чтобы ты не обижался вот тебе стандарт, где описано что такое http request: http://www.w3.org/Protocols/rfc2616/rfc2616-sec5.html
Э, хорош уже строить умника, ОК? Вот тебе весь запрос, который пришел с Яндекса (вырезал только кусок своего url). Кто там чего кодировал? Уж точно не я! И сервер матерится на это в полный голос! Вот я и говорю, что щас просто эту шнягу прогоню через фильтр и подсуну ответ 200.

PHP:
http://hghltd.yandex.net/yandbtm?url=http%3A%2F%2F***.ru%2Fspectehn%2Fattachm.php&text=%E3%E8%E4%F0%EE%ED%EE%E6%ED%E8%F6%FB
 

dimagolov

Новичок
Bu-Bu, то, что ты написал может быть запросом к proxy, но никак не к твоему сайту. ни один броузер послать такой запрос на твой сайт не может иначе, как установив твой сайт в настройках как proxy.
 

Bu-Bu

Любитель PHP
Какой-ты настырный, слушай. У меня в логе уже 21 строка и все с этого Х.яндекса, а теперь прикинь: сколько ошибок возникает по вине самого Артемия мать его!
 

dimagolov

Новичок
Bu-Bu, все ошибки от того, что ты считаешь, что стандарты писали лохи и следовать им тоже удел лохов, потому что из-за этого теряются клиенты. пока не поймешь хотя бы что такое протокол http и как он работает, ты своих проблем не решишь, только будешь создавать новые. все решение тебе было сказанно в первом же ответе, но ты верить не хочешь, ведь знаешь лучше, что тебе надо?
 

p0is0n

Новичок
http://hghltd.yandex.net/yandbtm?url=http%3A%2F%2F***.ru%2Fspectehn%2Fattachm.php&text=%E3%E8%E4%F0%EE%ED%EE%E6%ED%E8%F6%FB
Это сохраненая копия, возможно когда человек щелкает по ссылкам, на твоем сайте их уже нет.
 

Bu-Bu

Любитель PHP
Чему верить? Что кривой запрос к существующей странице нужно отдавать на 404? Сам понял: что сказал? У меня код отлажен на все сто, а вот это кривое зеркало я щас за 5 сек выправлю и будет жужжать. Так что думай: что советовать, а главное - как.

-~{}~ 11.08.08 18:23:

Автор оригинала: p0is0n
Это сохраненая копия, возможно когда человек щелкает по ссылкам, на твоем сайте их уже нет.
В том то и дело, что есть! У меня почти полностью статика за редким исключением.
 

dimagolov

Новичок
p0is0n, вот скажи, как в таком случае это попадает к Bu-Bu? если запрос клиент делает к сохраненным на яндексе страницам?

хотя догадываюсь как. это сам Bu-Bu полез на яндекс искать свой сайт и начал жаловаться на кривые "запросы с яндекса" и ламеров которые этот яндекс разрабатывают.

ИМХО пора тему в юмор переносить
 

Bu-Bu

Любитель PHP
Это пора санитаров в дурку переводить! Эти кривульки уже давно мне покоя не давали, однако у меня все нормально - у Яндекса - сомневаюсь! Я проверил - обычное обращение к сохраненной в Яндексе странице дает сразу 2-10 таких кривых обращения к серверу. Сервер говорит 404. Хорошо, если Х.яндекс не отслеживает статус такого обращения. А если отслеживает и ставит в лог, что страница не существует? Что тогда с ТИЦ случится?

-~{}~ 12.08.08 12:24:

А вот такие рефереры приходят с Гугля. Как это сервер может переварить - не знаю, но на 404 ошибку это отправлять тоже нет смысла никакого.

PHP:
http://74.125.39.104/search?q=cache:3RjPAn5b09YJ:***.ru/spectehn/crane.php+%D0%B3%D1%80%D1%83%D0%B7%D0%BE%D0%BF%D0%BE%D0%B4%D1%8A%D1%91%D0%BC%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D1%81%D0%B2%D1%8B%D1%88%D0%B5+100+%D1%82%D0%BE%D0%BD%D0%BD&hl=ru&ct=clnk&cd=6&client=opera
Так что тема актуальна для всех, кто борется за позиции в поисковиках, ибо неизвестно: как фиксируется результат обращения при просмотре "сохраненных" в поисковике страниц. Весьма возможно, что ответ сервера 404 снижает релевантность как самих страниц, так и сайта в целом. Кривизна, по моему мнению, из-за кодировок - принуждают всех на UTF переходить.
 

prolis

Новичок
Bu-Bu вы точно не путаете переменные HTTP_REFERER и REQUEST_URI?
Вам надо REQUEST_URI анализировать. Учтите, что 404 и на картинки тоже вываливается, поэтому при обращении к сохраненки в яндексе так много ошибок на ВАШЕЙ стороне.
А боты типа яндекса вообще не заполняют HTTP_REFERER, и если вы для посетителей покажете одну страницу, а для бота другую - это будет бан за клоакинг.
 

dimagolov

Новичок
Bu-Bu, ты зачем тут тему создал? ты же все равно никого не слушаешь и все делаешь по-своему? зачем тебе 3 страницы что-то объяснять?

Ты не просто не отдаешь 404, ты делаешь 2 переадресации:
http://uraltrucks.urr.ru/adjndvkdjvdfv
http://uraltrucks.urr.ru/adjndvkdjvdfv

GET /adjndvkdjvdfv HTTP/1.1
Host: uraltrucks.urr.ru
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru,en-gb;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Cookie: __utma=109300673.1794195500.1218537367.1218537367.1218537367.1; __utmb=109300673; __utmc=109300673; __utmz=109300673.1218537367.1.1.utmccn=(direct)|utmcsr=(direct)|utmcmd=(none)

HTTP/1.x 302 Found
Date: Tue, 12 Aug 2008 10:40:18 GMT
Server: Apache/2.0.52 (Red Hat)
Location: http://uraltrucks.urr.ru/404.php
Content-Length: 300
Keep-Alive: timeout=15, max=300
Connection: Keep-Alive
Content-Type: text/html; charset=iso-8859-1
X-Pad: avoid browser bug
----------------------------------------------------------
http://uraltrucks.urr.ru/404.php

GET /404.php HTTP/1.1
Host: uraltrucks.urr.ru
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru,en-gb;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Cookie: __utma=109300673.1794195500.1218537367.1218537367.1218537367.1; __utmb=109300673; __utmc=109300673; __utmz=109300673.1218537367.1.1.utmccn=(direct)|utmcsr=(direct)|utmcmd=(none)

HTTP/1.x 302 Found
Date: Tue, 12 Aug 2008 10:40:19 GMT
Server: Apache/2.0.52 (Red Hat)
X-Powered-By: PHP/5.1.6
Location: http://uraltrucks.urr.ru
Cache-Control: max-age=14400, must-revalidate
Content-Length: 1
Keep-Alive: timeout=15, max=299
Connection: Keep-Alive
Content-Type: text/html; charset=windows-1251
----------------------------------------------------------
http://uraltrucks.urr.ru/

GET / HTTP/1.1
Host: uraltrucks.urr.ru
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru,en-gb;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Cookie: __utma=109300673.1794195500.1218537367.1218537367.1218537367.1; __utmb=109300673; __utmc=109300673; __utmz=109300673.1218537367.1.1.utmccn=(direct)|utmcsr=(direct)|utmcmd=(none)

HTTP/1.x 200 OK
Date: Tue, 12 Aug 2008 10:40:19 GMT
Server: Apache/2.0.52 (Red Hat)
X-Powered-By: PHP/5.1.6
Cache-Control: max-age=14400, must-revalidate
Keep-Alive: timeout=15, max=298
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html; charset=windows-1251
-~{}~ 12.08.08 08:52:

Надо сказать, что такой подход к соблюдению стандартов, это творческое кредо Bu-Bu, так что переубедить его нереально: http://slo-gun.urr.ru/works.php
Кроме того по оценке сайта CYS.RU функциональность и код сайта почти идеальные, а значит посетители всегда увидят то, что и хотят увидеть а не белый экран или страницу 404.
Спешу тебя разочаровать. Еще как увидят белый экран с кучей непонятных слов: http://uraltrucks.urr.ru/trailers/semijumbo.inc
 
Сверху