Имея навыки анализа данных, я могу помочь понять и использовать данные таким образом, чтобы в этом был смысл. В частности, это касается интеллектуального анализа данных (data mining), подготовки данных (data wrangling), работы с большими данными, разведывательного анализа данных (EDA), бизнес-аналитики, консультирования по принятию решений и других ad hoc задач, связанных с данными.
В данном списке представлены некоторые мои проекты, связанные с анализом данных (исключая вклад в open-source и прочие проприетарные или небольшие проекты).
Дашборды
Прототип дашборда на основе проекта в области стратегического маркетинга, созданного с помощью Apache Superset



Дашборды
Дашборд маркетинговой аналитики c ETL для сегментации аудитории и анализа ROI, реализованный с помощью Dash и Airflow

Потоковая аналитика
End-to-end аналитика в реальном времени с использованием PySpark Structured Streaming. Пайплайн получает логи активности пользователей из Kafka, выполняет многоуровневые преобразования и агрегации, вычисляет базовые метрики и session-метрики. Включает динамическое обнаружение аномалий с использованием скользящих средних и стандартных отклонений, отмечаяя нехарактерные скачки активности.
Генерация контента, цифровой маркетинг
Персонализированный email-маркетинг с сегментацией пользователей и аналитикой
Обработка данных
Инструмент, автоматизирующий задачи очистки/валидации/исправления данных, составления отчётов по данным и профилирования данных. Разработан для использования как в составе пайплайнов, так и независимо.
Цифровой маркетинг, веб-скрпинг
Решение для маркетинговой аналитики: скрапинг сайтов для получения SEO-факторов и предсказания показателей кликабельности (CTR) рекламы
Дашборды
Аналитическая платформа, использующая интеграции REST API, анализ тональности/трендов и интерактивные дашборды в реальном времени (Python, Flask, Dash), агрегирующие данные из Twittter, Facebook, Instagram, Discord, Medium, Reddit, YouTube и TikTok для целей маркетинга
Дашборды
Дашборд для аналитики исторических данных и данных в реальном времени, объединящий несколько источников (соцсети, сервер, HR, финансовые метрики, транзакции, маркетинговый отдел) с помощью интеграции, стриминга, визуализаций и машинного обучения (Apache Superset, Grafana, Kafka, Prometheus, Python, React)
Аналитика клиентов
End-to-end приложение для аналитики, объединяющее прогнозирование оттока/CLV, сегментацию клиентов и lead scoring в решение с пайплайнами данных и дашбордом
Обучение ассоциативным правилам
Пайплайн для анализа корзины товаров, предназначенный для оптимизации розничных акций и пакетных предложений с использованием SQLite, mlxtend и D3.js
Разведка по открытым источникам, NLP, веб-агенты, веб-скрапинг
OSINT-инструмент, предназначенный для проведения глубокого поиска в Интернете путем объединения нескольких веб-агентов, использующих SOTA-методы машинного обучения. Программа краулит веб-страницы, собирая огромные объемы открытых данных, а затем использует языковые модели для выполнения NLP-задач по этим данным.
QA-системы, анализ больших данных
QA-приложение на основе LLM для работы с большими массивами предварительно загруженных документов, файлов данных, статей Википедии и спарсенных веб-страниц, реализующее графы знаний, аналитику, диаграммы и Streamlit-интерфейс
QASATIK — это приложение, помогающее исследовать большие объемы документов, файлов данных и веб-страниц. Созданное на основе Streamlit, оно поддерживает загрузку файлов, онлайн-скрапинг статей и запросы с использованием настраиваемых языковых моделей (OpenAI, LangChain, LlamaIndex). Кроме того, инструмент оснащен интерактивными визуализациями в виде графов знаний, различной аналитики и диаграмм, помогающими лучше разобраться в природе данных.
Анализ текста
Streamlit-интерфейс для загрузки экспортов Telegram-чатов и получения подробной статистики/визуализаций с использованием различных техник анализа данных и обработки естественного языка. Поддерживает также экспорты чатов из WhatsApp.