Kaiten

Блог RnD Кайтен

To Kaiten

Отчет о повышении стабильности Кайтен за Ноябрь

Улучшение uptime в Кайтен: наш прогресс и планы на будущее

Мы рады поделиться с вами обновлениями о нашей работе по улучшению доступности (uptime). Высокая доступность сервиса является критически важной для эффективности ваших бизнес-процессов, и мы стремимся предоставить вам максимально надежный инструмент для управления проектами.

Почему uptime так важен

В современном мире скорость и непрерывность работы являются ключевыми факторами успеха. Каждая минута простоя может приводить к задержкам, потерям и снижению эффективности командной работы. Мы понимаем, насколько важно для вас иметь постоянный доступ к Кайтен, поэтому повышение uptime стало для нас приоритетной задачей.

Что мы сделали для улучшения доступности

1. Внедрение кластера PostgreSQL

Ранее наша основная база данных PostgreSQL работала в единственном экземпляре, что создавало критическую точку отказа. При сбое базы данных у нас не было возможности оперативно ее перезагрузить для восстановления работы, что могло приводить к простою сервиса.

В этом месяце мы успешно запустили кластер PostgreSQL, состоящий из нескольких узлов. Теперь, если на основной ноде происходит сбой, наше приложение автоматически переключается на запасную ноду. Этот процесс происходит практически незаметно для пользователей и обеспечивает непрерывность работы сервиса.

Опираясь на надежность нашего облачного провайдера, мы достигли следующих показателей доступности:

  • Доступность записи: 99,95%

  • Доступность чтения: 99,99%

2. Переработка архитектуры постоянных подключений

Мы значительно улучшили архитектуру постоянных подключений в Кайтен. При открытии приложения, помимо загрузки основных данных (изображения, тексты, JavaScript-файлы и т.д.), ваш браузер или мобильное приложение устанавливает постоянное соединение с нашим сервером. Это позволяет получать в реальном времени все обновления, такие как новые комментарии, изменения в структуре досок, уведомления и многое другое.

Ранее в моменты массовых разрывов связи, например, из-за сетевых сбоев на нашей хостинговой площадке или у провайдера анти-DDoS услуг, наши серверы испытывали значительную нагрузку. Одновременные попытки переподключения от десятков тысяч пользователей приводили к задержкам в работе сервиса и появлению известных “желтых плашек”, раздражающих своим морганием.

Мы перепроектировали эту часть архитектуры таким образом, что теперь массовые переподключения не создают существенной нагрузки на систему. Даже при одновременных переподключениях большого количества пользователей наша система остается стабильной и продолжает работать без сбоев, обеспечивая вам беспрерывный доступ к сервису.

3. Подключение второй хостинговой площадки

Мы подключили вторую хостинговую площадку, и теперь некоторые подсистемы Кайтен функционируют одновременно на обеих площадках. Это означает, что даже в случае полного выхода из строя одной площадки или проблем с сетевой связностью, системы Кайтен автоматически переключаются и продолжают работать на второй площадке. Для пользователей это обеспечивает непрерывность работы сервиса без каких-либо заметных сбоев.

В будущем мы планируем распространить эту схему на все подсистемы Кайтен, чтобы сделать наш проект максимально независимым от проблем любого уровня на одной хостинговой площадке. Это позволит нам обеспечить еще более высокий уровень доступности и стабильности сервиса.

4. Улучшение системы мониторинга

В ходе недавних инцидентов мы выявили отсутствие некоторых важных событий в нашей системе мониторинга. Это приводило к тому, что мы не всегда своевременно получали полную и достоверную информацию о состоянии наших систем и причинах сбоев.

Мы доработали систему мониторинга, добавив недостающие события и метрики. Теперь мы получаем более точную информацию о работе всех компонентов нашей инфраструктуры. Это позволяет нам оперативно реагировать на возникающие проблемы и даже предотвращать их появление в будущем.

Благодаря этим улучшениям мы можем быстрее обнаруживать и устранять неполадки, что способствует повышению общей стабильности и доступности сервиса.

Недавние инциденты и наши действия

К сожалению, в этом месяце нас немного подвел провайдер отправки почтовых уведомлений. У нас не было готового резервного провайдера, чтобы моментально перенаправить письма и избежать существенной задержки в их доставке. Это могло привести к тому, что вы не сразу получали важные уведомления и сообщения от Кайтен.

На данный момент мы подключили нескольких провайдеров и прорабатываем схему автоматического переключения между ними. Это позволит нам в случае проблем с доставкой писем оперативно реагировать и обеспечивать стабильную работу системы уведомлений без задержек.

Наши планы

В декабре мы планируем уделить особое внимание основным рисковым участкам нашей инфраструктуры и постараться решить первопричины остальных инцидентов, с которыми мы сталкивались в последнее время. Мы активно работаем над полным планом по достижению и превышению уровня доступности сервисов в 99,99% и поделимся с вами прогрессом в следующих статьях.

Мы также продолжим развивать и улучшать наши системы мониторинга, автоматического переключения и отказоустойчивости, чтобы сделать Кайтен еще более надежным и стабильным инструментом для вашего бизнеса.

Мы искренне благодарны вам за доверие и обратную связь. Ваши отзывы помогают нам становиться лучше и создавать продукт, который соответствует вашим потребностям.

Если у вас есть вопросы или предложения, пожалуйста, свяжитесь с нашей службой поддержки. Вместе мы сделаем Кайтен еще более надежным и удобным инструментом.

До встречи, и спасибо за то, что выбираете Кайтен. Мы стараемся для вас!