Как восстанавливать сайты из Веб Архива - archive.org. Часть 1

Опубликовано: 2019-11-21

Интерфейс веб-архива: инструкция к инструментам Summary, Explore и Site map.

В этой статье мы расскажем о самом web.archive  и о том, как он работает.

Для справки: веб-архив был создан Брюстером Кейлом в 1996 году примерно в то же время, когда он основал компанию Alexa Internet, занимающуюся сбором статистики о посещаемости веб-сайтов. В октябре того же года организация начала архивировать и хранить копии веб-страниц. Но в текущем виде ― WAYBACKMACHINE ― в котором мы можем его использовать, он запустился только в 2001 году, хотя данные сохраняются с 1996 года. Преимущество веб-архива для любого сайта в том, что он сохраняет не только html-код страниц, но и другие типы файлов: doc, zip, avi, jpg, pdf, css. Комплекс html-кодов всех элементов страниц позволяет восстановить сайт в его первоначальном виде (на конкретную дату индексирования, когда паук веб-архива посещал страницы сайта).

Итак, архив находится по адресу http://web.archive.org/. Рассмотрим возможности веб-архива на примере крупного всем известного сайта, как WhatsApp.

На главной странице в поле поиска вводим домен интересующего нас сайта, в данном случае ― whatsapp.com

После ввода ссылки на сайт мы видим календарь сохранения кода html страницы. На этом календаре на датах сохранения мы видим пометки различными цветами:

Синий ― сервер отдавал валидный правильный код 200 (отсутствие ошибок от сервера);

Красный (желтый, оранжевый, в зависимости от браузера и операционной системы ПК) ― ошибка 404 или 403, то, что не интересно при восстановлении;

Зеленый ― redirect-страницы (301 и 302).

Цвета в календаре не дают 100% гарантию соответствия: на синей дате также может быть redirect (не на уровне заголовка, а к примеру, в html-коде самой страницы ― в мета-тегах refresh (тегах обновления экрана) или в JavaScript).

Переходим на 2009 год, в самое начало индексирования (сохранения) сайта в веб-архиве.

Видим версию от 24 января и открываем ее в новой вкладке (в случае ошибок при работе, лучше открыть инструмент веб-архива в режиме инкогнито или в другом браузере).

Итак, мы видим версию страницы WhatsApp за 2009 год. В url страницы мы видим цифры ― timestamp (временную метку) ― т.е. год, месяц, день, час, минута, секунда, когда было сохранение именно этого url. Формат timestamp (YYYYMMDDhhmmss).

Timestamp ― это не время сохранения копии сайта и не время сохранения страницы, это именно время сохранения конкретного файла. Это важно знать для восстановления контента из веб архива. Все элементы сайта - картинки, стили, скрипты, html и так далее имеют свой timestamp, то есть дату архивации. 

Для возвращения со страницы сайта обратно на календарь, нажимаем на ссылку с числом captures (захватов страницы).

 

Инструмент Summary

На главной странице веб-архива выбираем инструмент Summary. Это графики и диаграммы сохранения сайта. Все графики и таблички можно посмотреть по годам.

Наиболее полезная информация на странице ― сумма столбика New URLs. Эта сумма показывает нам количество уникальных файлов содержащееся в веб-архиве.

Цифра будет установлена приблизительна, по той причине, что сам веб-архив мог заиндексировать страницу с www или без. Т.е. одна и та же страница и ее элементы могут располагаться по разным адресам.

 

     Инструмент Explore

Он загружает в таблицу все url, что ранее были заиндексированы пауком веб-архива.

Тут можно увидеть:

  1. MIME Тип элемента;
  2. Первичную дату индексирования элемента;
  3. Последнюю дату сохранения элемента;
  4. Общее число захватов (сохранений) элемента;
  5. Число дубликатов;
  6. Число сохранений уникального контента по url.

В поле фильтра возможно задать любую часть искомого элемента: для поиска содержимого сайта, которое трудно обнаружить в большом количестве ссылок. 

Также возможно в поиске ввести часть пути, к примеру, путь в папку (обязательно со звездочкой), можно увидеть все url по заданному пути (все файлы со страницы или с папки) для анализа индексации этого контента.

 

Инструмент Site Map

На главной странице сайта нажимаем соответствующую ссылку Site Map.

Это кольцевая диаграмма с разделением по годам для анализа элементов, которые сохранял веб-архив (какие страницы) в разрезе от главного url к url вторго и n-ного уровня.   Этот инструмент позволяет определить, в какой год веб-архив перестал сохранять новый контент на сайт или копии определенных url (появление любого кода, кроме кода 200).

В центре главная страница, а далее по структуре пути на втором-третьем этапе видим внутренние страницы сайта. Здесь нет других видов файлов, только сохраненные url. Т.е. мы можем понять, где архив смог проиндексировать или не проиндексировать страницы.

На схеме показаны:

    1.  Главная страница

    2 - 5.  Уровни вложенности страниц сайта

Также с помощью данного инструмента мы можем увидеть внутренние страницы по структуре и открыть их отдельно в новой вкладке.

Таким образом, отобрав ссылки на страницы и элементы с необходимой датой сохранения в веб-архиве и построив требуемую нам структуру, мы можем приступать к следующему этапу ― подготовке домена к восстановлению. Но об этом мы расскажем в следующем гайде.

Этот видео гайд есть на Youtube:

 

Как восстанавливать сайты из Веб Архива - archive.org. Часть 2

Как восстанавливать сайты из Веб Архива - archive.org. Часть 3

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://archivarix.com/ru/blog/1-how-does-it-works-archiveorg/

Последние новости:
2020.11.03
Новая верия CMS стала удобнее и понятее вебмастерам из разных стран мира.

- Полная локализация Archivarix CMS на 13 языков (Английский, Испанский, Итальянский, Немецкий, Французский, Португальский, Польский, Турецкий, Японский, Китайский, Русский, Украинский, Белорусский).
- Экспорт всех текущих данных сайта в zip архив для сохранения резервной копии или переноса на другой сайт.
- Показ и удаления битых zip архивов в инструментах импорта.
- Проверка версии PHP при установке.
- Информация для установки CMS на сервер с NGINX + PHP-FPM.
- В поиске при включенном режиме эксперта отображается дата/время страницы и ссылка на её копию в ВебАрхив.
- Улучшения пользовательского интерфейса.
- Оптимизация кода.

Если вы на уровне носителя владеете языком, на который наша CMS ещё не переведена, то приглашаем вас сделать наш продукт ещё лучше. Через сервис Crowdin вы можете подать заявку и стать нашим официальным переводчиком на новые языки.
2020.10.06
Новая верия Archivarix CMS.
- Поддержка интерфейса командной строки для развертывания веб-сайтов прямо из командной строки, импорта, настроек, статистики, очистки истории и обновления системы.
- Поддержка зашифрованных паролей password_hash(), которые можно использовать в CLI.
- Экспертный режим для включения дополнительной отладочной информации, экспериментальных инструментов и прямых ссылок на сохраненные снимки WebArchive.
- Инструменты для неработающих внутренних изображений и ссылок теперь могут возвращать список всех отсутствующих URL-адресов вместо удаления.
- Инструмент импорта показывает поврежденные / неполные zip-файлы, которые можно удалить.
- Улучшена поддержка файлов cookie, чтобы соответствовать требованиям современных браузеров.
- Настройка выбора редактора по умолчанию для HTML-страниц (визуальный редактор или код).
- Вкладка «Изменения», показывающая различия текста, по умолчанию отключена, может быть включена в настройках.
- Откатиться к конкретному изменению можно во вкладке «Изменения».
- Исправлен URL-адрес карты сайта XML для веб-сайтов, построенных с субдоменом www.
- Исправлено удаление временных файлов, которые были созданы в процессе установки / импорта.
- Более быстрая очистка истории.
- Удалены неиспользуемые фразы локализации.
- Переключение языка на экране входа в систему.
- Обновлены внешние пакеты до самых последних версий.
- Оптимизировано использование памяти для расчета текстовых различий на вкладке «Изменения».
- Улучшена поддержка старых версий расширения php-dom.
- Экспериментальный инструмент для исправления размеров файлов в базе данных, если вы редактировали файлы непосредственно на сервере.
- Экспериментальный и очень сырой инструмент экспорта плоской конструкции.
- Экспериментальная поддержка открытого ключа для будущих функций API.
2020.06.08
Первое июньское обновление Archivarix CMS с новыми, удобными фичами.
- Исправлено: Раздел История не работал при отсутствии включённого php расширения zip.
- Вкладка История с деталями изменений при редактировании текстовых файлов.
- Инструмент редактирования .htaccess.
- Возможность подчистить бэкапы до нужной точки отката.
- Блок "Отсутствующие урлы" убран из Инструментов, т.к. он доступен с главной панели
- В главную панель добавлена проверка и показ свободного места на диске.
- Улучшена проверка необходимых PHP расширений при запуске и начальной установке.
- Мелкие косметические правки.
- Все внешние инструменты обновлены на последние версии.
2020.05.21
Обновление, которое оценят веб-студии и те, кто использует аутсорс.
- Отдельный пароль для безопасного режима.
- Расширен безопасный режим. Теперь можно создавать кастомные правила и файлы, но без исполняемого кода.
- Переустановка сайта из CMS без необходимости что-либо вручную удалять с сервера.
- Возможность сортировать кастомные правила.
- Улучшены Поиск & Замена для очень больших сайтов.
- Дополнительные настройки у инструмента "Метатег viewport".
- Поддержка IDN доменов на хостингах со старой версией ICU.
- В начальной установке с паролем добавлена возможность разлогиниться.
- Если при интеграции с WP обнаружен .htaccess, то правила Archivarix допишутся в его начало.
- При скачивании сайтов по серийному номер используется CDN для повышения скорости.
- Другие мелкие улучшения и фиксы.
2020.05.12
Наша Archivarix CMS развивается семимильными шагами. Новое обновление, в котором появились:
- Новый дэшборд для просмотра статистики, настроек сервера и обновления системы.
- Возможность создавать шаблоны и удобным образом добавлять новые страницы на сайт.
- Интеграция с Wordpress и Joomla в один клик.
- Теперь в Поиске-Замене дополнительная фильтрация сделана в виде конструктора, где можно добавить любое количество правил.
- Фильтровать результаты теперь можно и по домену/поддоменам, дате-времени, размеру файлов.
- Новый инструмент сброса кэша в Cloudlfare или включения/отключения Dev Mode.
- Новый инструмент удаления версионности у урлов, к примеру, "?ver=1.2.3" у css или js. Позволяет чинить даже те страницы, которые криво выглядели в ВебАрхиве из-за отсутствия стилей с разными версиями.
- У инструмента robots.txt добавлена возможность сразу включать и добавлять Sitemap карту.
- Автоматическое и ручное создание точек откатов у изменений.
- Импорт умеет импортировать шаблоны.
- Сохранение/Импорт настроек лоадера содержит в себе созданные кастомные файлы.
- У всех действий, которые могут длиться больше таймаута, отображается прогресс-бар.
- Инструмент добавления метатега viewport во все страницы сайта.
- У инструментов удаления битых ссылок и изображений возможность учитывать файлы на сервере.
- Новый инструмент исправления неправильных urlencode ссылок в html коде. Редко, но может пригодиться.
- Улучшен инструмент отсутствующих урлов. Вместе с новым лоадером, теперь ведётся подсчёт обращений к несуществующим урлам.
- Подсказки по регулярным выражениями в Поиске & Замене.
- Улучшена проверка недостающих расширений php.
- Обновлены все используемые js инструменты на последние версии.

Это и много других косметических улучший и оптимизации по скорости.