Используя машинное обучение, я могу помочь в решении широкого спектра задач, связанных с преобразованием данных в полезную информацию путем автоматизации принятия решений и прогнозирования результатов, что обеспечит вам конкурентное преимущество. Независимо от того, представляете ли вы компанию или просто работаете над независимым проектом, я могу внедрить, обновить или поддерживать (на постоянной или разовой основе) статистические алгоритмы, модели нейронных сетей или ML-пайплайны для классификации, регрессии, кластеризации, уменьшения размерности, обнаружения аномалий и других (смешанных) задач.
В данном списке представлены некоторые мои проекты, связанные с машинным обучением (исключая вклад в open-source и прочие проприетарные или небольшие проекты).
Промпт-инжиниринг, MLOps
Автоматический промпт-инжиниринг, тестирование и балансирование нагрузки ИИ-моделей для продакшена и R&D
Генерация контента, цифровой маркетинг
Персонализированный email-маркетинг с сегментацией пользователей и аналитикой
Компьютерное зрение, дашборды
Обработка медицинских изображений/видео: оптический поток (Farneback, Lucas-Kanade, глубокое обучение), поиск похожих изображений (SIFT/ORB/CNN-эмбеддинги), определение объектов и интерактивный дашборд (Dash)
Рычночный анализ, рекомендательные системы
Оптимизация цен и динамический профайлинг пользователей для онлайн-коммерции
PoC-инструмент для прогнозирования спроса, регрессии и оптимизации динамического ценообразования на основе ансамбля; профилирование пользователей на основе ML с системами персонализированных рекомендаций для оптимизации продаж/вовлеченности в реальном времени. Прогнозирует продажи на основе исторических данных, цен конкурентов и сезонности, используя модели временных рядов, и динамически рассчитывает оптимальные цены. Профилирование осуществляется путем кластеризации пользователей на основе отслеживания их поведения (клики, время пребывания на странице, история покупок). Пользователи сегментируются для получения персонализированных рекомендаций с использованием методов коллаборативной фильтрации.
Анализ текста, анализ изображений
Телеграм-бот на основе ViT/NLP, в реальном времени определяющий и модерирующий сообщения, с логгированием и авто-удалением/предупреждением. Предназначен для групп.
Выявление аномалий, анализ рисков
PoC-приложение для обнаружение финансового мошенничества и скоринга кредитных рисков, использующее ансамблевые методы и глубокое обучение
Генерация контента, RAG
PoC-чатбот, сочетающий LLM и техники RAG. Использует текстовые эмбеддинги, векторный поиск (ElasticSearch) и интеграцию языковых моеделй (OpenAI API или open-source альтернативы) для генерации ответов в службе поддержки клиентов.
Цифровой маркетинг, веб-скрпинг
Решение для маркетинговой аналитики: скрапинг сайтов для получения SEO-факторов и предсказания показателей кликабельности (CTR) рекламы
Рекомендательные системы
Простой пайплайн, который собирает, предобрабатывает и размечает сырые данные (взаимодействие user-item) для построения гибридной рекомендательной системы, использующей коллаборативную фильтрацию (SVD, ALS) и обучение ранжированию (XGBoost ranking)
Временные ряды, предсказательная аналитика
Предсказание временных рядов в реальном времени с использованием ARIMA/SARIMA, Prophet, LSTM-сетей и feature engineering (lag-фичи, rolling statistics, date-time компоненты)
Тематическое моделирование
Пайплайн для классификации текста и тематического моделирования с использованием латентного размещения Дирихле, spaCy, NLTK, модели BERT и FastAPI-интерфейса
Аналитика клиентов
End-to-end приложение для аналитики, объединяющее прогнозирование оттока/CLV, сегментацию клиентов и lead scoring в решение с пайплайнами данных и дашбордом
Разведка по открытым источникам, NLP, веб-агенты, веб-скрапинг
OSINT-инструмент, предназначенный для проведения глубокого поиска в Интернете путем объединения нескольких веб-агентов, использующих SOTA-методы машинного обучения. Программа краулит веб-страницы, собирая огромные объемы открытых данных, а затем использует языковые модели для выполнения NLP-задач по этим данным.
Глубокое обучение
TensorFlow-реализация и демонстрация работы сети Колмогорова-Смирнова, предложенной в апреле 2024 года (arXiv:2404.19756)
Анализ звука
Архитектура Mixture of Experts для преобразования речи в текст и распознавания языка, реализованная на PyTorch
Система сочетает в себе архитектуры трансформера, RNN и CNN. Она поддерживает различные аудио- и видеоформаты и может работать с несколькими языками и диалектами. Изначально проект разрабатывался как пет-проект по распознаванию речи с целью получить навыки работы с PyTorch. Модель была обучена на приватных данных, состоящих из тысяч часов речи.
Временные ряды, поиск аномалий
Алгоритм выявления аномалий для временных рядов на основе модели динамической генерации порогов
Компьютерное зрение
Комплексная система анализа дорожного движения на кольцевых развязках: обработка данных с нескольких камер в реальном времени, интеграция с Kafka для обмена сообщениями, InfluxDB для хранения временных рядов и Grafana для интерактивных дашбордов. Обрабатывает потоки RTSP или локальные .mp4-файлы, вычисляет количество и интенсивность движения (автомобилей в минуту), поддерживает параллелизм.
QA-системы, анализ больших данных
QA-приложение на основе LLM для работы с большими массивами предварительно загруженных документов, файлов данных, статей Википедии и спарсенных веб-страниц, реализующее графы знаний, аналитику, диаграммы и Streamlit-интерфейс
QASATIK — это приложение, помогающее исследовать большие объемы документов, файлов данных и веб-страниц. Созданное на основе Streamlit, оно поддерживает загрузку файлов, онлайн-скрапинг статей и запросы с использованием настраиваемых языковых моделей (OpenAI, LangChain, LlamaIndex). Кроме того, инструмент оснащен интерактивными визуализациями в виде графов знаний, различной аналитики и диаграмм, помогающими лучше разобраться в природе данных.
Анализ звука
Докеризированная бенчмарк-модель с API для классификации музыки по жанрам, созданная с помощью TensorFlow и Essentia
Рекомендательные системы
Реализация полноценного пайплайна рекомендательной системы на PyTorch с использованием Elasticsearch, Redis, Flask, Feast и Triton: от обработки данных и обучения модели до развёртывания и выдачи предсказаний