После инженерного проекта по автоматическому расчёту инсоляции помещений(степень освещенности помещений солнечным светом), основанного на методах линейной алгебры, я всерьёз увлекся математикой, что в конечном итоге привело меня в МФТИ и к сфере анализа данных и машинного обучения. Хочу развиваться Data Science и ML-инжиниринга, сосредотачиваясь на прикладных задачах. Также рассматриваю возможность поступления в аспирантуру и участия в исследовательских проектах.

Образование

2024 — по настоящее время

МФТИ, ФПМИ — Магистратура

Факультет: Прикладная математика и информатика

Направление: Современная комбинаторика

2018 — 2022

Тюменский индустриальный университет — Бакалавриат

Направление: Строительство (Расчеты строительных конструкций)

Профессиональный опыт

BIM-Инженер | ООО «Партнер.Проект»

02/2023 — по настоящее время

В рамках одной должности прошел путь от технической поддержки проектов до разработки ML-решений.


Data Scientist (2025 — настоящее время)

  • Разработал MVP ML-модель для сопоставления элементов BIM-модели (Revit) с позициями сметного справочника
  • Использовал CatBoost для multi-label классификации, целевая метрика — Precision 90%
  • Построил пайплайн дообучения модели при расширении справочника
  • Сейчас — работаю над улучшением качества до стабильных 95–98%. Планирую заменить категориальные признаки на эмбеддинги (устойчивость к опечаткам) и развернуть сервер для обработки данных

Цель проекта: повышение точности расчетов путем уменьшения значимости ошибок при ручном заполнении параметров в информационной модели. Ослабить требования, которые предъявляются к проектировщикам(значительно упростить моделирование)


Python-разработчик BIM

  • Разработка инструментов автоматизации для BIM-процессов и интеграция их в рабочие процессы проектной организации.
  • Разработка всего двух плагинов помогла сэкономить 550 тыс. руб. в год
  • Собираю и анализирую данные с разработанных плагинов и информационных моделей — это позволяет выявлять и устранять слабые стороны в проектировании
  • Собираю и выгружаю данные из BIM-моделей (Revit) в PostgreSQL по запросам аналитиков

BIM-Координатор

02/2023 — 01/2024

  • Техническая поддержка и оптимизация BIM-процессов в проектной команде.
  • Обеспечивал полную техническую поддержку проектной группы по вопросам BIM
  • Разрабатывал простые средства автоматизации проектирования (скрипты, шаблоны, макросы)
  • Создавал обучающие материалы для сотрудников (~40 человек): видеоуроки, внутренняя база знаний
  • Координировал работу смежных отделов

BuildBIMClassify — ML-система классификации BIM-объектов по сметным работам.

Разработал и внедрил пилотную MVP модель для автоматического сопоставления элементов BIM-модели (Revit) с позициями сметного справочника - классическая задача выполняемая по большей мере вручную.


Цель: Сократить до минимума ручное сопоставления элементов по работам. Когда сбор справочника будет завершен, модель будет полностью обучена и внедрена в боевые проекты, что позволит значительно сократить ручной труд и повысить точность сметных расчётов.

Результат: на данном этапе модель показывает качество ~90% для 20-ти классов, в то время как первые 2-3 попытки расчетов при классическом ручном подходе дают примерно 50-70% качества из-за человеческого фактора, что соответствует уменьшению нагрузки на проектный и сметный отдел примерно на 15% и 20% соответственно. Результаты работы проверялись в специальном ПО для расчета смет, поэтому применение лучших практик для оценки качества (например, A/B-тестирование) в данном случае нецелесообразно.

Описание:

  • Использован CatBoost для multi-label классификации с фокусом на Precision (90%).
  • Построен пайплайн сбора данных, их обработки и использования результатов модели
  • Подготовил пайплайн для дообучения модели при расширении справочника.

MorseNet — Декодер аудио файлов с кодом Морзе

Цель: построить модель декодирования сигналов морзе, используя технологии, похожие на обработку естественного языка.

Технологии: PyTorch, FastAPI, MLflow, Docker

Описание:

  • Построена модель CNN → LSTM с CTC Loss для декодирования из аудиофайлов
  • Использованы Mel-спектрограммы и аугментации (time/freq masking)
  • Логирование метрик обучения через MLflow
  • Сохранение моделей на сервере
  • Качество: 0.433 по Levenshtein distance на Kaggle (15 место, лидер — 0.24)
  • FastAPI-сервер с возможностью дообучения модели независимо от инференса
  • Решение упаковано в Docker

Классификация изображений

Цель: построить модель для классификации 42 персонажей по JPEG-изображениям

Технологии: PyTorch, torchvision, seaborn

Описание:

  • Разработана CNN-модель с 3 сверточными блоками
  • Использовались техники аугментации и расширения тестовой выборки: повороты, изменение яркости, горизонтальное отражение
  • 96.56% accuracy на тренировочной выборке для базовой модели

Предсказание личности

Цель: Разработать модель предсказания личности человека на основе данных.

Технологии: Pandas, Numpy, Matplotlib, Seaborn, StratifiedKFold, CatBoostClassifier, scikit-learn

Описание:

  • Проанализирована степень важности пропусков в данных
  • Созданы новые признаки для расширения выборки
  • Протестированы различные модели - CatBoost, XGBoost, RamdomForest, а так же их стейкинг

RAG-LMM помощник инженера (Заморожен)

Цель: разработать систему умного поиска по внутренней базе знаний компании с выводом найденной информации в качестве контекста LLM.

Технологии: модели компьютерного зрения, ORC, LLM, RAG

Описание:

  • Решение проблем с неструктурированной документацией с помощью ORC
  • Интеграция примечаний с изображениями в систему
  • Проверка актуальности норм
  • Фильтрация галлюцинаций LLM
  • Результат: построил часть модели, которая отвечает за поиск релевантной информации в pdf. Данная модель может определять качество скана pdf для частей документа и если качество низкое, то применяются ORC подходы для получения информации (например таблицы) и конкатенирует их с качественными сканами. После этого происходит поиск и выбор информации на основании запроса через библиотеку Langchain.

  • Центр "Пуск" МФТИ:

    Продвинутые методы машинного обучения.
  • Кафедра интеллектуальных систем:

    Введение в машинное обучение (Константин Воронцов)

    Программирование на Python (Мурат Апишев)

  • Курсы Сергея Балакирева на Stepik:

    Часть 1: Введение в Ml.

    Часть 2: Нейронные сети.

  • Deep Learning School МФТИ

  • Тренировки ML Яндекс.

    Сейчас прохожу 3-й спринт по RL который стартовал 9-го сентября. До этого прошел тренировки по классическому ML, CV и NLP