Организаторы массовых спортивных мероприятий обратились к нам с задачей ускорить обработку огромного количества фотографий участников. На таких событиях собираются десятки тысяч снимков, и ключевая проблема заключалась в том, что они никак не промаркированы. Для дальнейшей продажи спортсменам требовалось автоматически находить изображения с конкретными номерами на груди или спине.
Мы разработали решение на основе технологий машинного зрения. Для детекции номеров использовалась модель YOLOv8, а для распознавания текста — TrOCR от HuggingFace. Обе модели были дообучены на специфичных данных заказчика. Мы построили полный пайплайн: от подготовки датасета и парсинга аннотаций до кастомного collator’а и инференса с визуализацией результатов.
Особое внимание мы уделили эффективности: система обрабатывает фотографии более чем на 60% быстрее, чем ранее применявшиеся подходы, и при этом требует меньше вычислительных мощностей. Это стало возможным благодаря оптимизированной архитектуре и дообучению моделей под конкретные условия съёмки.
Теперь заказчик получает автоматизированный инструмент, который быстро сортирует огромные массивы снимков и маркирует их номерами участников. Для бизнеса это означает экономию ресурсов, сокращение времени обработки и удобную систему подготовки фотографий к продаже.