Аналоги web.archive.org. Как найти удаленные сайты?

Опубликовано: 2020-01-17

Веб Архив ( Archive.org) - самый известный и самый большой архив сайтов в мире. На их серверах сейчас находится более 400 миллиардов страниц. Существуют ли какие-либо системы, аналогичные Archive.org? Да, есть несколько альтернативных сервисов, но все они - лишь слабое подобие archive.org. Основным отличием Archive.org от всех альтернатив является размер. Веб Архив во много раз больше, чем все они вместе взятые.

Archive.is - Этот очень похожий на Веб Архив сервис. Archive.is (или archive.today) - некоммерческая организация, центр обработки данных которой находится во Франции. Служба позиционирует себя как капсулу времени, в которой хранится содержимое Интернета. Archive.is может сохранять не только статические веб-страницы с короткими URL-адресами, но и страницы, созданные в проектах Web 2.0, в том числе, например, карты Google. По сравнению с Archive.org этот веб-сервис обычно не индексирует сайты глубже чем первая страница. Archive.is не публикует точный размер кэшированных сайтов, но кажется, что их размер базы данных составляет всего несколько процентов от базы Archive.org.

GoogleCache Это не отдельный сервис, а просто кеш самой большой поисковой системы. В нем содержится много миллиардов страниц, но хранит он их не долго. Обычно кеш удаленного домена существует около месяца. Так что если домен был удален давно, то кеш не поможет. Cachedview.com, Cachedview.nl - системы просмотра кеша.

Так-же существует около 25 небольших клонов Archive.org, они весьма ограниченные базы данных. Этот сайт - timetravel.mementoweb.org является поисковой системой для подобных интернет архивов. Он тоже может помочь вам найти удаленный контент. Time Travel ищет кэшированные страницы в archive.org, archive.is и в некоторых странных местах, таких как Исландский интернет архив или Веб-архив Сингапура. Вы можете найти список существующих служб архивации на их сайте - http://timetravel.mementoweb.org/about/

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://ru.archivarix.com/blog/wayback-machine-alternatives/

Как восстанавливать сайты из Веб Архива - archive.org. Часть 1

В этой статье мы расскажем о самом web.archive  и о том, как он работает. Интерфейс веб-архива: инструкция к инструментам Summary, Explore и Site map. В этой статье мы расскажем о самом web.archive  и…

2 месяца назад
Как восстанавливать сайты из Веб Архива - archive.org. Часть 2

Подготовка домена к восстановлению. Создание robots.txt
В прошлой статье мы рассмотрели работу сервиса archive.org, а в этой статье речь пойдет об очень важном этапе восстановления сайта из веб-архи…

2 месяца назад
Как восстанавливать сайты из Веб Архива - archive.org. Часть 3

Выбор ограничения ДО при восстановлении сайтов из веб-архива. Когда домен заканчивается, на сайте может появится заглушка домен-провайдера или хостера. Перейдя на такую страницу, веб-архив будет ее со…

2 месяца назад
Как работает Архиварикс?

Система Архиварикс предназначена для скачивания и восстановления сайтов - как уже не работающих из Веб Архива, так и живых, находящихся в данный момент онлайн. В этом заключается ее основное отличие о…

2 месяца назад
Как перенести контент из web.archive.org на Wordpress?

С помошью параметра "Извлечение структурированного контента" можно очень просто сделать Wordpress блог как из сайта, найденного в Веб Архиве, так и из любого другого сайта. Для этого находим сайт-исто…

1 месяц назад
Как спрятать от конкурентов обратные ссылки?

Известно, что анализ обратных ссылок конкурентов является важной частью работы СЕО оптимизатора. Если вы делаете сетку PBN блогов, то возможно вам не особо хотелось чтобы другие вебмастера знали, где …

1 месяц назад
Как восстановить удаленные видео с YouTube?

Иногда вы можете увидеть это сообщение «Видео недоступно» на Youtube. Обычно это означает, что Youtube удалил это видео со своего сервера. Но есть простой способ, как получить его из Archive.org. Для …

1 месяц назад
Как скачать сайт целиком из кэша Google?

Если нужный вам сайт был недавно удален, но Archive.org не сохранил последнюю версию, что можно сделать, чтобы получить его контент? Google Cache поможет это сделать. Все, что вам нужно, это установит…

3 недели назад
Аналоги web.archive.org. Как найти удаленные сайты?

Веб Архив ( Archive.org) - самый известный и самый большой архив сайтов в мире. На их серверах сейчас находится более 400 миллиардов страниц. Существуют ли какие-либо системы, аналогичные Archive.org?…

4 дня назад
Последние новости:
2019.01.07
Очередное обновление Archivarix CMS с добавлением нового функционала. Теперь любой старый сайт можно корректно переконвертировать в UTF-8 нажатием одной кнопки. Фильтрация в поиске стала ещё лучше, т.к. теперь результаты можно фильтровать и по MIME-типу.
2019.12.20
Мы выпустили долгожданное обновление Archivarix CMS. В новой версии кроме различным улучшений и оптимизаций появилась очень полезный фукнционал дополнительной фильтрации результатов поиска и полная поддержка древовидной структуры URLs для восстановлений с большим количеством файлов. Более детально можно посмотреть в логе изменений скрипта Archivarix CMS.
2019.11.27
Выпущен наш плагин Archivarix External Images Importer. Плагин импортирует изображения со сторонних веб-сайтов, ссылки на которые расположены в постах и ​​страницах, в галерею WordPress. Если изображение в данный момент недоступно или удалено, плагин загружает его копию из веб-архива.
2019.11.20
Мы добавили новый раздел нашего сайта - Archivarix Blog. Там вы можете прочитать полезную информацию о работе нашей системы и о восстановлении сайтов из Archive.org.
2019.10.02
Недавно наша система была обновлена, и теперь у нас есть две новые опции:
- Вы можете скачать сайты Darknet .onion. Просто введите адрес веб-сайта .onion в поле Домен, и наша система загрузит его из сети Tor, как обычный веб-сайт.
- Контент экстрактор. Archivarix может не только загружать существующие сайты или восстанавливать их из веб-архива, но также может извлекать содержимое из них. В поле «Продвинутые параметры» необходимо выбрать «Извлечь структурированный контент». После этого вы получите полный архив всего сайта и архив статей в форматах xml, csv, wxr и json. При создании архива статей наш парсер учитывает только содержательный контент, исключая дубликаты статей, элементы дизайна, меню, рекламу и другие нежелательные элементы.