Данные необходимы для обучения моделей машинного обучения, и более качественные данные, как правило, улучшают метрики, позволяя решать бизнес-задачи более эффективно. Я готов собрать и разметить любые данные из открытых источников, используя различные техники скрапинга, взаимодействуя, если необходимо, с API или базами данных. Среди них могут быть данные из социальных сетей, отзывы о продуктах, рыночные тенденции для понимания общественного спроса, и т.д.
В данном списке представлены некоторые мои проекты, связанные с анализом данных (исключая вклад в open-source и прочие проприетарные или небольшие проекты).
Цифровой маркетинг, веб-скрпинг
Решение для маркетинговой аналитики: скрапинг сайтов для получения SEO-факторов и предсказания показателей кликабельности (CTR) рекламы
Рекомендательные системы
Простой пайплайн, который собирает, предобрабатывает и размечает сырые данные (взаимодействие user-item) для построения гибридной рекомендательной системы, использующей коллаборативную фильтрацию (SVD, ALS) и обучение ранжированию (XGBoost ranking)
Веб-скрапинг, предобработка данных
Python-скрипт для веб-скрапинга, интеграции данных и дальнейшего обучения моделей. Использует BeautifulSoup для парсинга HTML, TensorFlow/Keras для создания и обучения baseline-моделей, а также несколько других библиотек для обработки данных и автоматизации.
Парсинг API
Python-скрипты для парсинга Wildberries.ru, извлекающие данные через API
Разведка по открытым источникам, NLP, веб-агенты, веб-скрапинг
OSINT-инструмент, предназначенный для проведения глубокого поиска в Интернете путем объединения нескольких веб-агентов, использующих SOTA-методы машинного обучения. Программа краулит веб-страницы, собирая огромные объемы открытых данных, а затем использует языковые модели для выполнения NLP-задач по этим данным.