Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Скоропортящийся контент: четверть существовавших с 2013 по 2023 годы веб-страниц пропали из интернета

Интернет представляет собой невообразимо большое хранилище данных, насчитывающее сотни миллиардов проиндексированных веб-страниц. Можно подумать, что веб-пространство с годами только расширяется, но на деле это не совсем так. Новое исследование Pew Research Center наглядно показывает, насколько непродолжительный период времени существует веб-контент.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

Аналитики подсчитали, что четверть от общего числа веб-страниц, которые существовали в период с 2013 года по 2023 годы, по состоянию на октябрь 2023 года уже недоступны. В большинстве случаев это связано с тем, что с течением времени страницы сайтов радикально корректируются или же попросту удаляются. Для более старого контента эта тенденция также актуальна. Около 38 % веб-страниц, существовавших в 2013 году, недоступны в настоящее время. Если же рассматривать веб-страницы, существовавшие в 2023 году, то показатель недоступных в настоящее время составит 8 %.

Специалисты Pew Research Center изучили ссылки, которые появляются на правительственных и новостных сайтах, а также в разделе «Ссылки» на страницах Википедии по состоянии на весну этого года. Анализ показал, что 23 % новостных веб-страниц содержат хотя бы одну нерабочую ссылку, как и 21 % веб-страниц правительственных сайтов. Особенно часто неработающие ссылки встречаются на страницах сайтов местных органов власти (городских администраций). При этом 54 % страниц Википедии содержат в разделе «Ссылки» хотя бы один URL-адрес уже не существующей страницы.

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Страницы в социальных сетях

Чтобы проследить, как исчезают страницы в социальных сетях, аналитики собрали на платформе X выборку твитов в режиме онлайн весной 2023 года и следили за ними в течение трёх месяцев. В результате было установлено, что почти каждый пятый пост в соцсети перестаёт быть общедоступным спустя несколько месяцев после публикации. В 60 % случаев аккаунт, опубликовавший твит первоначально, за этот же период становится приватным, его действие приостанавливается или же учётная запись удаляется с платформы. В остальных 40 % случаев владелец аккаунта сам удаляет твит, но его учётная запись продолжает существовать. Отмечается, что более 40 % твитов на турецком или арабском языках исчезают с сайта в течение трёх месяцев с момента публикации.

Веб-страницы за последнее десятилетие

Для проведения этой части анализа специалисты собрали случайную выборку из чуть менее 1 млн веб-страниц из архивов Common Crawl. Аналитики отбирали страницы из архивов Common Crawl за каждый год, начиная с 2013 года (примерно 90 тыс. страниц за каждый год), и проверяли, существуют ли они в настоящее время.

Было установлено, что 25 % собранных веб-страниц в октябре 2023 года уже были недоступны. Это значение складывается из двух показателей: 16 % приходится на отдельно недоступные страницы на действующих сайтах, а ещё 9 % страниц недоступны, потому что перестал существовать весь сайт. Вполне логично, что большая часть недоступных сейчас ресурсов приходится на более старые версии архивов (38 % отобранных страниц, существовавших в 2013 году, перестали функционировать к октябрю 2023 года).

Ссылки на правительственных сайтах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

Для анализа этого сегмента онлайн-пространства было выбрано около 500 тыс. страниц с правительственных веб-сайтов из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах размещалось 42 млн ссылок (86 % внутренних ссылок). Примерно три четверти веб-страниц из выборки содержали хотя бы одну ссылку, а в среднем на странице находилось 50 ссылок. В общей сложности 21 % исследованных страниц на правительственных сайтах содержали хотя бы одну неработающую ссылку.

Ссылки на новостных порталах

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В этой категории анализировались 500 тыс. страниц с 2063 сайтов, которые компания comScore отнесла к категории «Новости и информация». Страницы собирались из архива Common Crawl за март-апрель 2023 года. В общей сложности на отобранных страницах содержалось 14 млн ссылок (в среднем 20 ссылок на страницу). После проверки оказалось, что 5 % всех ссылок из выборки уже не работают и на 23 % страниц из выборки содержится хотя бы одна ссылка на не существующий ресурс. Около 25 % страниц новостных сайтов из топ-20 по посещаемости имеют хотя бы одну нерабочую ссылку.

Справочные ссылки в Википедии

Аналитики выбрали 50 тыс. страниц Википедии на английском языке и изучили ссылки, которые содержались на них в разделе «Ссылки». Около 82 % страниц содержали хотя бы одну нерабочую внешнюю ссылку. В общей сложности на всех страницах из выборки содержится более 1 млн ссылок, причём 11 % из них больше недоступны.

Посты в соцсети X

 Источник изображения: Pew Research Center

Источник изображения: Pew Research Center

В исследовании участвовали 5 млн твитов, опубликованных с 8 марта по 27 апреля 2023 года в соцсети X, которая на тот момент называлась Twitter. Далее исследователи следили за этими постами до 15 июня того же года и ежедневно проверяли их на предмет доступности. К концу исследования 18 % от начальной базы твитов уже не были доступны для просмотра на платформе. В большинстве случаев это стало следствием того, что учётная запись автора заблокирована или полностью удалена.

Отмечается, что большая часть твитов удаляется из X в течение месяца. При этом 1 % постов исчезает в течение часа после публикации, 3 % — в течение дня, 10 % — в течение недели, 15 % — в течение месяца. Другими словами, около половины твитов, которые исчезают с платформы, становятся недоступны в течение первых шести дней с момента публикации и 90 % таких твитов исчезают за 46 дней.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Роботам нужно ваше тело»: сервис RentAHuman.ai позволит ИИ-агентам нанимать людей для работы в реальном мире 2 ч.
Олдскульный ролевой боевик Kromlech в духе «Готики» отправит игроков в мир на грани гибели — новый трейлер и дата выхода в раннем доступе Steam 3 ч.
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 4 ч.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 4 ч.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 4 ч.
Выручка YouTube достигла рекордных $60 млрд в 2025 году — больше, чем у Netflix 5 ч.
Годовая выручка Google впервые превысила $400 млрд — забрасывание ИИ деньгами усилится 5 ч.
Ставший вирусным ИИ-агент OpenClaw накрыло волной вредоносных дополнений 6 ч.
ICE — не айс: французская Capgemini продаст подразделение CGS, обслуживающее власти США 8 ч.
Никита Буянов опроверг связь загадочной Cor3 с Escape from Tarkov и Battlestate Games, ещё больше запутав фанатов 8 ч.
Флагманские Dimensity разогнали выручку MediaTek до $10 млрд — но 2026 год обещает быть сложным 5 мин.
Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III Anniversary Edition 19 мин.
Юпитер слегка «усох»: зонд «Юнона» уточнил реальные размеры самой большой планеты Солнечной системы 29 мин.
Supermicro удвоила квартальную выручку на фоне спроса на ИИ-оборудование, но прибыль выросла лишь на четверть 47 мин.
Alphacool представила жидкие термопрокладки Apex Thermal Putty X1 56 мин.
Sony научилась зарабатывать без роста продаж — рухнувшие на 16 % поставки PS5 компенсировали подписки 3 ч.
KKR и Singtel выкупили оператора ЦОД STT GDC за $5,1 млрд 3 ч.
«Яндекс» научил «Алису» понимать естественную речь для управления умным домом 3 ч.
Foxconn в очередной раз резко нарастила выручку — и снова благодаря Nvidia 3 ч.
В Москве не осталось электроэнергии для новых дата-центров — и быстро ситуацию не исправить 3 ч.