Как восстанавливать сайты из Веб Архива - archive.org. Часть 1

Опубликовано: 2019-11-21

Интерфейс веб-архива: инструкция к инструментам Summary, Explore и Site map.

В этой статье мы расскажем о самом web.archive  и о том, как он работает.

Для справки: веб-архив был создан Брюстером Кейлом в 1996 году примерно в то же время, когда он основал компанию Alexa Internet, занимающуюся сбором статистики о посещаемости веб-сайтов. В октябре того же года организация начала архивировать и хранить копии веб-страниц. Но в текущем виде ― WAYBACKMACHINE ― в котором мы можем его использовать, он запустился только в 2001 году, хотя данные сохраняются с 1996 года. Преимущество веб-архива для любого сайта в том, что он сохраняет не только html-код страниц, но и другие типы файлов: doc, zip, avi, jpg, pdf, css. Комплекс html-кодов всех элементов страниц позволяет восстановить сайт в его первоначальном виде (на конкретную дату индексирования, когда паук веб-архива посещал страницы сайта).

Итак, архив находится по адресу http://web.archive.org/. Рассмотрим возможности веб-архива на примере крупного всем известного сайта, как WhatsApp.

На главной странице в поле поиска вводим домен интересующего нас сайта, в данном случае ― whatsapp.com

После ввода ссылки на сайт мы видим календарь сохранения кода html страницы. На этом календаре на датах сохранения мы видим пометки различными цветами:

Синий ― сервер отдавал валидный правильный код 200 (отсутствие ошибок от сервера);

Красный (желтый, оранжевый, в зависимости от браузера и операционной системы ПК) ― ошибка 404 или 403, то, что не интересно при восстановлении;

Зеленый ― redirect-страницы (301 и 302).

Цвета в календаре не дают 100% гарантию соответствия: на синей дате также может быть redirect (не на уровне заголовка, а к примеру, в html-коде самой страницы ― в мета-тегах refresh (тегах обновления экрана) или в JavaScript).

Переходим на 2009 год, в самое начало индексирования (сохранения) сайта в веб-архиве.

Видим версию от 24 января и открываем ее в новой вкладке (в случае ошибок при работе, лучше открыть инструмент веб-архива в режиме инкогнито или в другом браузере).

Итак, мы видим версию страницы WhatsApp за 2009 год. В url страницы мы видим цифры ― timestamp (временную метку) ― т.е. год, месяц, день, час, минута, секунда, когда было сохранение именно этого url. Формат timestamp (YYYYMMDDhhmmss).

Timestamp ― это не время сохранения копии сайта и не время сохранения страницы, это именно время сохранения конкретного файла. Это важно знать для восстановления контента из веб архива. Все элементы сайта - картинки, стили, скрипты, html и так далее имеют свой timestamp, то есть дату архивации. 

Для возвращения со страницы сайта обратно на календарь, нажимаем на ссылку с числом captures (захватов страницы).

 

Инструмент Summary

На главной странице веб-архива выбираем инструмент Summary. Это графики и диаграммы сохранения сайта. Все графики и таблички можно посмотреть по годам.

Наиболее полезная информация на странице ― сумма столбика New URLs. Эта сумма показывает нам количество уникальных файлов содержащееся в веб-архиве.

Цифра будет установлена приблизительна, по той причине, что сам веб-архив мог заиндексировать страницу с www или без. Т.е. одна и та же страница и ее элементы могут располагаться по разным адресам.

 

     Инструмент Explore

Он загружает в таблицу все url, что ранее были заиндексированы пауком веб-архива.

Тут можно увидеть:

  1. MIME Тип элемента;
  2. Первичную дату индексирования элемента;
  3. Последнюю дату сохранения элемента;
  4. Общее число захватов (сохранений) элемента;
  5. Число дубликатов;
  6. Число сохранений уникального контента по url.

В поле фильтра возможно задать любую часть искомого элемента: для поиска содержимого сайта, которое трудно обнаружить в большом количестве ссылок. 

Также возможно в поиске ввести часть пути, к примеру, путь в папку (обязательно со звездочкой), можно увидеть все url по заданному пути (все файлы со страницы или с папки) для анализа индексации этого контента.

 

Инструмент Site Map

На главной странице сайта нажимаем соответствующую ссылку Site Map.

Это кольцевая диаграмма с разделением по годам для анализа элементов, которые сохранял веб-архив (какие страницы) в разрезе от главного url к url вторго и n-ного уровня.   Этот инструмент позволяет определить, в какой год веб-архив перестал сохранять новый контент на сайт или копии определенных url (появление любого кода, кроме кода 200).

В центре главная страница, а далее по структуре пути на втором-третьем этапе видим внутренние страницы сайта. Здесь нет других видов файлов, только сохраненные url. Т.е. мы можем понять, где архив смог проиндексировать или не проиндексировать страницы.

На схеме показаны:

    1.  Главная страница

    2 - 5.  Уровни вложенности страниц сайта

Также с помощью данного инструмента мы можем увидеть внутренние страницы по структуре и открыть их отдельно в новой вкладке.

Таким образом, отобрав ссылки на страницы и элементы с необходимой датой сохранения в веб-архиве и построив требуемую нам структуру, мы можем приступать к следующему этапу ― подготовке домена к восстановлению. Но об этом мы расскажем в следующем гайде.

Этот видео гайд есть на Youtube:

 

Как восстанавливать сайты из Веб Архива - archive.org. Часть 2

Как восстанавливать сайты из Веб Архива - archive.org. Часть 3

Использование материалов статьи разрешается только при условии размещения ссылки на источник: https://ru.archivarix.com/blog/1-how-does-it-works-archiveorg/

Последние новости:
2020.02.14
Новая пятница, новые обновления!
Много нового и полезного было сделано в Archivarix CMS:
- В Поиске и Замене теперь можно фильтровать по дате урла.
- Теперь внешние ссылки со всех страниц сайта можно удалять нажатием одной кнопки. Анкоры сохраняются.
- Новый параметр ACMS_SAFE_MODE, который запрещает менять настройки Лоадера/CMS и загружать кастомные файлы, у импортов тоже запрещается импортировать настройки и кастомные файлы.
- JSON-файлы настроек Лоадера и CMS теперь можно скачать себе на компьютер и загрузить в CMS из файла на компьютере. Таким образом перенос настроек на другие сайты стал ещё проще.
- Создание кастомных правил стало удобнее, есть часто используемые шаблоны, которые можно выбрать.
- Новые кастомные файлы можно создать в файл менеджере без необходимости загружать файл.
- Дерево урлов для основного домена всегда идёт первым.
- Если вы скрываете дерево урлов для домена/поддомена, то эта настройка сохраняется во время работы с CMS.
- Вместо двух кнопок раскрыть/свернуть дерево урлов, теперь одна, которая умеет и то и другое.
- Создание нового урла упростилось и при создании можно сразу указать файл с компьютера.
- В мобильной вёрстке основная рабочая часть идёт первой.
- После каждой манипуляции с файлом, в базе обновляется его размер.
- Исправлена работа кнопок выборочных откатов истории.
- Исправлено создание новых урлов для поддоменов, которые содержат цифры в названии домена.
2020.02.07
Новая порция обновлений!
В исходном-коде файлов теперь ничего менять не нужно.
- Загружать сайты на сервер теперь можно загрузив на сервер лишь один скрипт с нашей Archivarix CMS.
- Для того чтобы что-то поменять в настройках CMS больше не нужно открывать её исходный код. Поставить пароль или понизить лимиты можно напрямую из раздела Настроек.
- Для подключения своих счётчиков, трекеров, кастомных скриптов теперь используется отдельная папка "includes" внутри папки .content.xxxxxx. Загружать кастомные файлы можно тоже напрямую через новый файловый менеджер в CMS. Добавление счётчиков и аналитики на все страницы сайта тоже стало удобным и понятным.
- Импорты поддерживают новую структуру файлов с настройками и папкой "includes".
- Добавлены комбинации клавиш для работы в редакторе кода.

Эти и многие другие улучшения в новой версии. Лоадер тоже обновился и работает с настройками, которые создаёт CMS.
2020.01.23
Ещё одно мега-обновление Archivarix CMS!

Добавлены очень полезные инструменты, которые позволяют нажатием одной кнопки:
- вычистить все битые внутренние ссылки,
- удалить отсутствующие изображения,
- установить rel="nofollow" для всех внешних ссылок.

Теперь дополнительные восстановления можно импортировать непосредственно из самой CMS. Вы можете объединять разные восстановления в один рабочий сайт.

Для тех кто работает с большими сайтами или используют плохой хостинг - все действия, которые раньше могли останавливаться по таймауту вашего хостинга, теперь будут разбиваться на части и автоматически продолжаться, пока не будут завершены. Хотите сделать замену в коде 500 тысяч файлов? Импортировать восстановление размером в несколько гигабайт? Все это теперь возможно на любом, даже очень дешевом хостинге. Время таймаута (по-умолчанию, 30 секунд) можно поменять в параметре ACMS_TIMEOUT.

Наш лоадер (index.php) теперь работает как на http, так и на https протоколах вне зависимости от параметров сборки. Поставить протокол принудительно можно поменяв значение параметра ARCHIVARIX_PROTOCOL.
2020.01.07
Очередное обновление Archivarix CMS с добавлением нового функционала. Теперь любой старый сайт можно корректно переконвертировать в UTF-8 нажатием одной кнопки. Фильтрация в поиске стала ещё лучше, т.к. теперь результаты можно фильтровать и по MIME-типу.
2019.12.20
Мы выпустили долгожданное обновление Archivarix CMS. В новой версии кроме различным улучшений и оптимизаций появилась очень полезный фукнционал дополнительной фильтрации результатов поиска и полная поддержка древовидной структуры URLs для восстановлений с большим количеством файлов. Более детально можно посмотреть в логе изменений скрипта Archivarix CMS.