David Medvedev

После инженерного проекта по автоматическому расчёту инсоляции помещений(степень освещенности помещений солнечным светом), основанного на методах линейной алгебры, я всерьёз увлекся математикой, что в конечном итоге привело меня в МФТИ и к сфере анализа данных и машинного обучения. Хочу развиваться Data Science и ML-инжиниринга, сосредотачиваясь на прикладных задачах. Также рассматриваю возможность поступления в аспирантуру и участия в исследовательских проектах.

Образование

2024 — по настоящее время

МФТИ, ФПМИ — Магистратура

Факультет: Прикладная математика и информатика

Направление: Современная комбинаторика

2018 — 2022

Тюменский индустриальный университет — Бакалавриат

Направление: Строительство (Расчеты строительных конструкций)

Профессиональный опыт

BIM-Инженер | ООО «Партнер.Проект»

02/2023 — по настоящее время

В рамках одной должности прошел путь от технической поддержки проектов до разработки ML-решений.

Data Scientist (2025 — настоящее время)

Разработал MVP ML-модель для сопоставления элементов BIM-модели (Revit) с позициями сметного справочника
Использовал CatBoost для multi-label классификации, целевая метрика — Precision 90%
Построил пайплайн дообучения модели при расширении справочника
Сейчас — работаю над улучшением качества до стабильных 95–98%. Планирую заменить категориальные признаки на эмбеддинги (устойчивость к опечаткам) и развернуть сервер для обработки данных

Цель проекта: повышение точности расчетов путем уменьшения значимости ошибок при ручном заполнении параметров в информационной модели. Ослабить требования, которые предъявляются к проектировщикам(значительно упростить моделирование)

Python-разработчик BIM

Разработка инструментов автоматизации для BIM-процессов и интеграция их в рабочие процессы проектной организации.
Разработка всего двух плагинов помогла сэкономить 550 тыс. руб. в год
Собираю и анализирую данные с разработанных плагинов и информационных моделей — это позволяет выявлять и устранять слабые стороны в проектировании
Собираю и выгружаю данные из BIM-моделей (Revit) в PostgreSQL по запросам аналитиков

BIM-Координатор

02/2023 — 01/2024

Техническая поддержка и оптимизация BIM-процессов в проектной команде.
Обеспечивал полную техническую поддержку проектной группы по вопросам BIM
Разрабатывал простые средства автоматизации проектирования (скрипты, шаблоны, макросы)
Создавал обучающие материалы для сотрудников (~40 человек): видеоуроки, внутренняя база знаний
Координировал работу смежных отделов

BuildBIMClassify — ML-система классификации BIM-объектов по сметным работам.

Разработал и внедрил пилотную MVP модель для автоматического сопоставления элементов BIM-модели (Revit) с позициями сметного справочника - классическая задача выполняемая по большей мере вручную.

Цель: Сократить до минимума ручное сопоставления элементов по работам. Когда сбор справочника будет завершен, модель будет полностью обучена и внедрена в боевые проекты, что позволит значительно сократить ручной труд и повысить точность сметных расчётов.

Результат: на данном этапе модель показывает качество ~90% для 20-ти классов, в то время как первые 2-3 попытки расчетов при классическом ручном подходе дают примерно 50-70% качества из-за человеческого фактора, что соответствует уменьшению нагрузки на проектный и сметный отдел примерно на 15% и 20% соответственно. Результаты работы проверялись в специальном ПО для расчета смет, поэтому применение лучших практик для оценки качества (например, A/B-тестирование) в данном случае нецелесообразно.

Описание:

Использован CatBoost для multi-label классификации с фокусом на Precision (90%).
Построен пайплайн сбора данных, их обработки и использования результатов модели
Подготовил пайплайн для дообучения модели при расширении справочника.

MorseNet — Декодер аудио файлов с кодом Морзе

Цель: построить модель декодирования сигналов морзе, используя технологии, похожие на обработку естественного языка.

Технологии: PyTorch, FastAPI, MLflow, Docker

Описание:

Построена модель CNN → LSTM с CTC Loss для декодирования из аудиофайлов
Использованы Mel-спектрограммы и аугментации (time/freq masking)
Логирование метрик обучения через MLflow
Сохранение моделей на сервере
Качество: 0.433 по Levenshtein distance на Kaggle (15 место, лидер — 0.24)
FastAPI-сервер с возможностью дообучения модели независимо от инференса
Решение упаковано в Docker

GitHub: Morse-Decoder

Классификация изображений

Цель: построить модель для классификации 42 персонажей по JPEG-изображениям

Технологии: PyTorch, torchvision, seaborn

Описание:

Разработана CNN-модель с 3 сверточными блоками
Использовались техники аугментации и расширения тестовой выборки: повороты, изменение яркости, горизонтальное отражение
96.56% accuracy на тренировочной выборке для базовой модели

GitHub: Image classification

Предсказание личности

Цель: Разработать модель предсказания личности человека на основе данных.

Технологии: Pandas, Numpy, Matplotlib, Seaborn, StratifiedKFold, CatBoostClassifier, scikit-learn

Описание:

Проанализирована степень важности пропусков в данных
Созданы новые признаки для расширения выборки
Протестированы различные модели - CatBoost, XGBoost, RamdomForest, а так же их стейкинг

GitHub: Personality Prediction

RAG-LMM помощник инженера (Заморожен)

Цель: разработать систему умного поиска по внутренней базе знаний компании с выводом найденной информации в качестве контекста LLM.

Технологии: модели компьютерного зрения, ORC, LLM, RAG

Описание:

Решение проблем с неструктурированной документацией с помощью ORC
Интеграция примечаний с изображениями в систему
Проверка актуальности норм
Фильтрация галлюцинаций LLM

Результат: построил часть модели, которая отвечает за поиск релевантной информации в pdf. Данная модель может определять качество скана pdf для частей документа и если качество низкое, то применяются ORC подходы для получения информации (например таблицы) и конкатенирует их с качественными сканами. После этого происходит поиск и выбор информации на основании запроса через библиотеку Langchain.

Центр "Пуск" МФТИ:
Продвинутые методы машинного обучения.
Кафедра интеллектуальных систем:

Введение в машинное обучение (Константин Воронцов)

Программирование на Python (Мурат Апишев)
Курсы Сергея Балакирева на Stepik:

Часть 1: Введение в Ml.

Часть 2: Нейронные сети.
Deep Learning School МФТИ
Тренировки ML Яндекс.

Сейчас прохожу 3-й спринт по RL который стартовал 9-го сентября. До этого прошел тренировки по классическому ML, CV и NLP

Образование

2024 — по настоящее время

2018 — 2022

Профессиональный опыт

BIM-Инженер | ООО «Партнер.Проект»

Data Scientist (2025 — настоящее время)

Python-разработчик BIM

BIM-Координатор

BuildBIMClassify — ML-система классификации BIM-объектов по сметным работам.

MorseNet — Декодер аудио файлов с кодом Морзе

Классификация изображений

Предсказание личности

RAG-LMM помощник инженера (Заморожен)

Центр "Пуск" МФТИ:

Кафедра интеллектуальных систем:

Курсы Сергея Балакирева на Stepik:

Deep Learning School МФТИ

Тренировки ML Яндекс.