После инженерного проекта по автоматическому расчёту инсоляции помещений(степень освещенности помещений солнечным светом), основанного на методах линейной алгебры, я всерьёз увлекся математикой, что в конечном итоге привело меня в МФТИ и к сфере анализа данных и машинного обучения. Хочу развиваться Data Science и ML-инжиниринга, сосредотачиваясь на прикладных задачах. Также рассматриваю возможность поступления в аспирантуру и участия в исследовательских проектах.
Образование
2024 — по настоящее время
МФТИ, ФПМИ — Магистратура
Факультет: Прикладная математика и информатика
Направление: Современная комбинаторика
2018 — 2022
Тюменский индустриальный университет — Бакалавриат
Направление: Строительство (Расчеты строительных конструкций)
Профессиональный опыт
BIM-Инженер | ООО «Партнер.Проект»
02/2023 — по настоящее время
В рамках одной должности прошел путь от технической поддержки проектов до разработки ML-решений.
Data Scientist (2025 — настоящее время)
- Разработал MVP ML-модель для сопоставления элементов BIM-модели (Revit) с позициями сметного справочника
- Использовал CatBoost для multi-label классификации, целевая метрика — Precision 90%
- Построил пайплайн дообучения модели при расширении справочника
- Сейчас — работаю над улучшением качества до стабильных 95–98%. Планирую заменить категориальные признаки на эмбеддинги (устойчивость к опечаткам) и развернуть сервер для обработки данных
Цель проекта: повышение точности расчетов путем уменьшения значимости ошибок при ручном заполнении параметров в информационной модели. Ослабить требования, которые предъявляются к проектировщикам(значительно упростить моделирование)
Python-разработчик BIM
- Разработка инструментов автоматизации для BIM-процессов и интеграция их в рабочие процессы проектной организации.
- Разработка всего двух плагинов помогла сэкономить 550 тыс. руб. в год
- Собираю и анализирую данные с разработанных плагинов и информационных моделей — это позволяет выявлять и устранять слабые стороны в проектировании
- Собираю и выгружаю данные из BIM-моделей (Revit) в PostgreSQL по запросам аналитиков
BIM-Координатор
02/2023 — 01/2024
- Техническая поддержка и оптимизация BIM-процессов в проектной команде.
- Обеспечивал полную техническую поддержку проектной группы по вопросам BIM
- Разрабатывал простые средства автоматизации проектирования (скрипты, шаблоны, макросы)
- Создавал обучающие материалы для сотрудников (~40 человек): видеоуроки, внутренняя база знаний
- Координировал работу смежных отделов
BuildBIMClassify — ML-система классификации BIM-объектов по сметным работам.
Разработал и внедрил пилотную MVP модель для автоматического сопоставления элементов BIM-модели (Revit) с позициями сметного справочника - классическая задача выполняемая по большей мере вручную.
Цель: Сократить до минимума ручное сопоставления элементов по работам. Когда сбор справочника будет завершен, модель будет полностью обучена и внедрена в боевые проекты, что позволит значительно сократить ручной труд и повысить точность сметных расчётов.
Результат: на данном этапе модель показывает качество ~90% для 20-ти классов, в то время как первые 2-3 попытки расчетов при классическом ручном подходе дают примерно 50-70% качества из-за человеческого фактора, что соответствует уменьшению нагрузки на проектный и сметный отдел примерно на 15% и 20% соответственно. Результаты работы проверялись в специальном ПО для расчета смет, поэтому применение лучших практик для оценки качества (например, A/B-тестирование) в данном случае нецелесообразно.
Описание:
- Использован CatBoost для multi-label классификации с фокусом на Precision (90%).
- Построен пайплайн сбора данных, их обработки и использования результатов модели
- Подготовил пайплайн для дообучения модели при расширении справочника.
MorseNet — Декодер аудио файлов с кодом Морзе
Цель: построить модель декодирования сигналов морзе, используя технологии, похожие на обработку естественного языка.
Технологии: PyTorch, FastAPI, MLflow, Docker
Описание:
- Построена модель CNN → LSTM с CTC Loss для декодирования из аудиофайлов
- Использованы Mel-спектрограммы и аугментации (time/freq masking)
- Логирование метрик обучения через MLflow
- Сохранение моделей на сервере
- Качество: 0.433 по Levenshtein distance на Kaggle (15 место, лидер — 0.24)
- FastAPI-сервер с возможностью дообучения модели независимо от инференса
- Решение упаковано в Docker
GitHub: Morse-Decoder
Классификация изображений
Цель: построить модель для классификации 42 персонажей по JPEG-изображениям
Технологии: PyTorch, torchvision, seaborn
Описание:
- Разработана CNN-модель с 3 сверточными блоками
- Использовались техники аугментации и расширения тестовой выборки: повороты, изменение яркости, горизонтальное отражение
- 96.56% accuracy на тренировочной выборке для базовой модели
GitHub: Image classification
Предсказание личности
Цель: Разработать модель предсказания личности человека на основе данных.
Технологии: Pandas, Numpy, Matplotlib, Seaborn, StratifiedKFold, CatBoostClassifier, scikit-learn
Описание:
- Проанализирована степень важности пропусков в данных
- Созданы новые признаки для расширения выборки
- Протестированы различные модели - CatBoost, XGBoost, RamdomForest, а так же их стейкинг
GitHub: Personality Prediction
RAG-LMM помощник инженера (Заморожен)
Цель: разработать систему умного поиска по внутренней базе знаний компании с выводом найденной информации в качестве контекста LLM.
Технологии: модели компьютерного зрения, ORC, LLM, RAG
Описание:
- Решение проблем с неструктурированной документацией с помощью ORC
- Интеграция примечаний с изображениями в систему
- Проверка актуальности норм
- Фильтрация галлюцинаций LLM
Результат: построил часть модели, которая отвечает за поиск релевантной информации в pdf. Данная модель может определять качество скана pdf для частей документа и если качество низкое, то применяются ORC подходы для получения информации (например таблицы) и конкатенирует их с качественными сканами. После этого происходит поиск и выбор информации на основании запроса через библиотеку Langchain.
Центр "Пуск" МФТИ:
Продвинутые методы машинного обучения.Кафедра интеллектуальных систем:
Введение в машинное обучение (Константин Воронцов)
Программирование на Python (Мурат Апишев)
-
Курсы Сергея Балакирева на Stepik:
Часть 1: Введение в Ml.
Часть 2: Нейронные сети.
-
Deep Learning School МФТИ
-
Тренировки ML Яндекс.
Сейчас прохожу 3-й спринт по RL который стартовал 9-го сентября. До этого прошел тренировки по классическому ML, CV и NLP