В марте 2026 года GitHub зафиксировал четыре инцидента с ухудшением производительности ключевых сервисов, включая GitHub.com, GitHub API, GitHub Actions и GitHub Copilot. Компания опубликовала разбор этих событий и текущие меры по усилению устойчивости инфраструктуры.
3 марта 2026 года, с 18:46 до 20:09 по UTC, GitHub столкнулся с периодом сниженной доступности, затронувшим github.com, GitHub API, GitHub Actions, операции Git, GitHub Copilot и другие зависимые сервисы. В пиковый момент примерно 40% запросов к github.com завершались ошибкой, около 43% запросов к GitHub API также не проходили. Операции Git по HTTP имели уровень ошибок около 6%, тогда как SSH оставался без сбоев. Запросы к GitHub Copilot завершались ошибкой примерно в 21% случаев, GitHub Actions испытал менее 1% влияния.
Причина инцидента совпала с проблемой начала февраля и была связана с большим объёмом записей в механизм кэширования пользовательских настроек. При развёртывании изменения, которое должно было снизить нагрузку на этот кэш, ошибка в коде привела к сбросу срока действия кэша для всех пользователей, его повторному пересчёту и перезаписи. Резкий рост нагрузки вызвал задержки репликации, что повлияло на все затронутые сервисы. Ситуацию стабилизировали откатом проблемного развёртывания.
GitHub признаёт, что эти сбои нарушили рабочие процессы разработчиков. Компания заявляет о продолжении серьёзных долгосрочных инвестиций в архитектуру и эксплуатацию платформы для повышения устойчивости и указывает, что уже ведётся глубокая переработка архитектуры, а также реализация срочных точечных улучшений.
5 марта 2026 года, с 16:24 до 19:30 по UTC, был зафиксирован инцидент с GitHub Actions. В этот период 95% запусков workflow не стартовали в течение 5 минут, средняя задержка составила 30 минут, ещё 10% запусков завершались с инфраструктурной ошибкой. Причиной стали обновления инфраструктуры Redis в продакшене, которые должны были повысить устойчивость, но привели к некорректной конфигурации балансировщика нагрузки Redis.
Неправильные настройки балансировщика направляли внутренний трафик на неверный хост, что вызвало два связанных инцидента. Проблему сняли исправлением конфигурации балансировщика; запуски GitHub Actions начали выполняться штатно с 17:24 по UTC, а оставшееся время ушло на обработку накопившейся очереди заданий.
GitHub оперативно откатил обновления, повлиявшие на инцидент, и заморозил изменения в этой части инфраструктуры до завершения последующих работ. Компания усиливает автоматизацию, чтобы некорректные конфигурации не могли распространяться, улучшает систему оповещений для раннего выявления неправильных настроек балансировщиков и обновляет конфигурацию Redis-клиентов в Actions, чтобы повысить устойчивость к кратковременным сбоям кэша.
19 марта 2026 года, с 01:05 до 02:52 по UTC, и 20 марта 2026 года, с 00:42 до 01:58 по UTC, были зарегистрированы два инцидента с сервисом Copilot Coding Agent. Пользователи не могли запускать новые сессии Copilot Agent и просматривать существующие. В первый инцидент средний уровень ошибок составлял около 53% и достигал 93% запросов, во второй — в среднем около 99% и до 100% запросов с существенным ростом повторных попыток.
Оба инцидента были вызваны одинаковой проблемой аутентификации системы, которая заблокировала подключение сервиса к базовому хранилищу данных. В каждом случае GitHub устранил сбой путём ротации затронутых учётных данных, что восстановило подключение и вернуло уровень ошибок к норме, время устранения составило 1 час 24 минуты. Повторное событие 20 марта стало следствием неполного устранения первопричины после первого инцидента.
Компания внедрила автоматизированный мониторинг жизненного цикла учётных данных и улучшает операционные процессы, чтобы сократить время обнаружения и устранения подобных проблем.
24 марта 2026 года, с 15:57 до 19:51 по UTC, были нарушены работа Microsoft Teams Integration и Teams Copilot Integration. Эти сервисы не могли доставлять уведомления о событиях GitHub в Microsoft Teams. В среднем уровень ошибок составил 37,4% и достигал 90,1% запросов, примерно 19% всех установок интеграции не получили уведомления GitHub-to-Teams в указанный период.
Причиной стал сбой у внешнего поставщика, что приводило к ошибкам HTTP 500 и обрывам соединений для интеграции с Teams. Проблему решили совместно с командами соответствующего сервиса, инцидент был закрыт в 19:51 по UTC после восстановления работы внешней системы.
GitHub усиливает наблюдаемость и обновляет операционные инструкции, чтобы сократить время реакции на подобные инциденты в будущем. Компания также напоминает, что актуальный статус сервисов и послепроисшественные отчёты доступны на странице статуса, а о технических изменениях и развиваемых направлениях можно узнать в инженерном разделе GitHub Blog.
Ранее GitHub сообщил, что в феврале 2026 года произошло шесть инцидентов с ухудшением работы сервисов, а в январе — два подобных случая.
Источник: отчёт GitHub по инцидентам производительности за март 2026 года.






















