Всем привет, была задача. Есть сайт, на сайте есть умный фильтр, этот фильтр при фильтрации выдает результаты. Необходимо в sitemap.xml добавить ссылки всех возможных вариантов фильтра. Важно что бы те ссылки у которых нету товаров (а такие страницы выдают 404 ошибку) не попадали в sitemap. Как реализовать проверку ссылок? Мне на ум пришло get_header , получать статус , если 404 то выкидывать. Но комбинаций фильтра около 170 000 вариантов, все их проверить сложно, делать выгрузку по шагам не в кайф, времени много будет занимать. Как сделать так, что бы в sitemap попадали только те страницы, где есть товар, и не попадали те, где ошибка 404.
Я бы работал напрямую с бд. Так же, возможно, эти 170к вариаций можно сократить. Допустим, если нет товаров в подкатегории Х, то нет смысл проверять, если ли в этой подкатегории товары по цвету/размеру/модели/etc (какие там фильтры не знаю, просто предложил). Возможно есть смысл работать с бэкапом бд на локалхосте(смотря как часто надо обновлять карту сайта), просто чтобы не грузить сервер лишними запросами.
Я когда-то делал в своем интернет магазине такую фичу, но залетел под фильтр из-за спама, дублей и т.д. Нужно крайне аккуратно это проворачивать.
Да, я тоже переживаю по этому поводу. Вас вывели из под фильтра ? А вы можете рассказать что там еще было кроме дублей ? Ведь по сути дубли сам поисковик должен исключать. на что еще ругался поисковик? и кстати, какой именно поисковик ?
Нам не удалось сделать так, что бы значения фильтра подтягивались к тайтлу самого товара, то есть: Ноутбук Lenovo ideapad 510 - такой тайтл был изначальный. Хотели добиться, что бы к тайтлу подставлялись значения с фильра: Бренд, цвет, расширения экрана, процессор, что бы в итоге получился такой тайтл: Ноутбук Lenovo ideapad 510 - Lenovo, серый, черный, белый, 15.6, 17.0, intel core i5, intelcore i7 купить в интернет-магазине бла бла В итоге у нас получилось, что каждое значения фильтра это отдельный тайтл, что привело к масовым дублям, к примеру в одном товаре 20 атрибутов фильтра в итоге так и получилось что 19 дублей и гугл это все пустил под спам и наложил фильтр. С под фильтра удалось вытащить, но спустя месяц или два, трафик просел категорически, продажи упали на нет, только контекст. Изначально хотели сделать так, как на розетке))
Ну благо у меня такой проблемы сейчас нет! Да идея крутая, главное реализовать, я сам в сео хорошо понимаю, ТЗ хорошее поставил. Сейчас вроде удалось собрать sitemap. Правда до этого программисты по ошибке добавили кучу мусора туда, и яндекс уже это съел (((( и проиндексировал, но сейчас из уже исключает. Но тем не менее, надеюсь вырулить ситуацию.