Получи бонус на первый депозит до 2500₽! Жми «Сделать ставку»!

В далеком году в Англии стартовал 19-ый сезон Футбольной лиги, победителем которого стал , набрав 51 очко в 38 турах (сегодня уже мало кто помнит, что до г в чемпионате Англии, как и других лигах, за победу давали 2 очка, а за ничью 1, и 51 очка при определенном раскладе было достаточно, чтобы занять первое место в чемпионате). В том сезоне , четыре года как поменявший свое название с , стал восьмым и уже на следующий год взял свой первый чемпионский титул. же, взявший свой второй титул в предыдущем сезоне, закончил сезон 1906/1907 на 15 месте, обеспечив себе лишь шестиочковый запас от зоны вылета. В то же время русский математик , работающий в Санкт-Петербургском государственном университете, в одной из своих работ впервые описывает математический законы, которые позволяют прогнозировать развитие определенных типов процессов окружающего нас мира. Позже такие процессы, состоящие из последовательности случайных событий с определенными свойствами, стали называть по имени математика – или . В течение 20 века теория цепей Маркова находила применение в различных областях науки, таких как физика, биология, генетика, но одним из самых известных на сегодняшний день примеров применения данной теории стал алгоритм ранжирования web-страниц для поисковых запросов — , разработанный и рядом других авторов в г., который стал фундаментом поисковой системы . Прошло еще немного времени, наступил 21 век, и математическая теория, придуманная более 100 лет назад, удивительным образом нашла еще одно применение, на это раз в индустрии футбола для оценки действий игроков, о чем и будет рассказано в данной статье.

Десять лет назад в году американская компания , занимающаяся сбором футбольных данных и статистическим анализом, выложила в свободный доступ данные о событиях 123 матчей АПЛ сезона 2010/2011 и устроила соревнования, в которых мог принять участие любой желающий, и основной задачей которых было получение каких-либо новых инсайтов относительно специфики футбольного процесса. Победителем соревнований стала Sarah Rudd)которая на тот момент была программистом в и работала над поисковой системой (которой не удалось стать настолько же популярной как Google), а в свободное от работы время вела блог футбольной аналитики. Сара разработала После презентации своей работы Сару позвали работать в StatDNA. Позже в конце 2012 лондонский Арсенал выкупил права на американскую компанию почти за 4 миллиона $, а Сара в последствии стала главой департамента аналитики канониров. На данном моменте можно завершить погружение в исторический контекст относительно того, как описываемая математическая теория оказалась востребованной в индустрии футбола, и приступить к непосредственному разбору построенной на ее основе аналитической модели.

На рисунке ниже приводится условный пример, который разбирается в книге Дэвида Самптера, для демонстрации ключевых особенностей марковской модели, которую изначально предложила Сара.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Получи бонус на первый депозит! Сделай ставку!

. Так как изначальная задача модели заключалась в оценке атакующих действий, то основной акцент был уделен финальной трети поля, для которой были выделены 6 зон. Оставшаяся часть поля была помечена отдельной зоной под номером 0.

Вводится понятие — Весь игровой процесс рассматривается как последовательность переходов между различными состояниями. Сара предложила рассматривать такие последовательности переходов как , что позволило использовать основное свойство данного подхода — (основное свойство марковских моделей). Другими словами можно сказать, что для марковских процессов Безусловно вас может смутить применение данного определения к описанию действий на футбольном поле, т.к. мы знаем, что иногда прошлые состояния в игре могут существенно влиять на то, что будет происходить на поле в следующие моменты времени, но принятое допущение позволяет довольно легко оценивать вероятности будущих состояний игры, в частности вероятность гола (), опираясь только на текущее состояние, что в свою очередь упрощает процесс оценки действий футболистов.

Всего в оригинальной модели выделялось 39 состояний.

  • 2 состояния, которые характеризуют окончание процесса владения мячом (и )

  • 7 состояний, которым предшествует остановка игры (то что называется , в оригинале у Сары — ). В данный набор были включены: Пенальти, Навес с углового, Розыгрыш углового, Навес со штрафного, розыгрыш штрафного, короткие и длинные вбрасывание из аута.

  • 30 состояний игры, в которой находится атакующий игрок с мячом, и (некоторые состояния определяются исключительно зоной, некоторые зоной и оборонительной линией)

В рассматриваемом примере используются три состояния, которые определяются исключительно зоной, в которой находится атакующий игрок: — игрок в центре поля, — игрок на фланге, — игрок в штрафной. Также в предлагаемом примере указаны два ключевых состояния: — гол и — потеря мяча. Оранжевые . Т.е. из состояния M доступно 4 перехода в другие состояния и один "переход" обратно в текущее состояние, который соответствует сохранению мяча атакующим игроком. (или единице).

В таблице ниже приведены значения вероятностей для различных (колонки с оранжевыми заголовками) в зависимости от (колонки с желтыми заголовками). Данная таблица называется , значения для которой рассчитываются исходя из статистических данныхза рассматриваемый промежуток времени (для рассматриваемого примера статистика может выглядеть следующем образом — все игроки всех команд получали мяч в состоянии M (в центре поля) , при этом: игрок в данной позиции не отдавал передачи и не бил по воротам (совершал движение с мячом), отдавал передачи в штрафную в позицию , на фланг в позицию , бил по воротам и забивал гол и команда теряла владение в результате передачи на правый фланг в позицию . Данный пример — условный, как я говорил ранее, в реальности матрица переходов имела размерность 39 на 39 и учитывала 1521 различный переход.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Давайте еще раз рассмотрим матрицу переходов. Первая строка соответствует состоянию и описывает вероятности возможных переходов в другие состояния. Если предположить, что в предыдущий момент времени мяч был отправлен из состояния в штрафную в состояние и теперь исходное состояние игры — , то распределение вероятностей всех возможных конечных состояний, доступных из текущего состояния, можно наблюдать во второй строке, — xG для нового состояния минус xG для предыдущего состояния , что равно 15 — 5 = 10. Т.е. в результате паса из в — вероятность гола увеличилась на 0.1 или 10%. По аналогии мы можем оценить изменение вероятности гола для любой пары состояний и как следствие оценить соответствующие действие игрока по увеличению или уменьшению xG в результате данного действия.

Разработанная Сарой модель стала . Ниже приводится ряд примеров оценивания последовательности действий игроков с помощью модели Маркова. В первом примере рассматриваются 2 передачи и последующий удар. Ранее для такой цепочки действий можно было получить две статистические оценки — для игрока 2, и для игрока 3. Модель на основе цепей Маркова позволяет:

  • атаки в финальной трети поля, а не только двух последних игроков.

  • в финальной трети поля, т.е. разработанная модель, основываясь на знаке разности xG между двумя состояниями, позволила выделять пасы, которые увеличивают вероятность гола и которые наоборот, снижают опасность.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

  • . Во втором примере можно наблюдать, как Игрок 1 получил более высокую оценку в атаке, которая закончилась голом, нежели Игрок 2, который отдал голевую передачу (Ранее действие первого игрока осталось бы вне статистических оценок, а теперь, основываясь на полученной оценке, можно сделать вывод, что действие первого игрока оказалось более весомым с точки зрения увеличения шансов гола, чем непосредственно голевая передача).

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

  • Т.е. для каждого забитого гола принимается во внимание состояние игры, в котором находился атакующий игрок, забивший гол. Данное состояние, как отмечалось ранее, учитывает и расположение футболиста на поле (зону) и расположение защитников. На примере ниже можно наблюдать, что Игрок 1 забивший гол из более сложной позиции, получил более высокую оценку за забитый гол, нежели Игрок 2, забивший гол из позиции, для которой xG был выше. Ранее оба игрока получили бы одинаковые оценки, которые бы отражали только факт забитого гола.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

  • . В примере 4 рассматривается ситуация, когда Игрок 1, заработавший пенальти, получает высокую положительную оценку своему действию (), а игрок 2, не забивший пенальти в результате сэйва вратаря, получает довольно высокую отрицательную оценку для своего действия (, что в итоговой статистике рассматривалось с положительной стороны для всей команды в целом)

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Безусловно у фанатов Арсенала есть масса (вполне обоснованных) вопросов к трансферной политике канониров за последние десять лет, основанной во многом на влиянии StatDNA на проводимую селекцию, особенно в период работы , но нужно понимать, что несмотря на то что описанные в этой статей для оценки эффективности игроков были революционными для того времени (2011/2012 год) в индустрии футбола и сделали огромный шаг вперед в развитии способов оценивания футбольных статистических данных, они .

За последние десять лет индустрия развивалась очень бурно по всем фронтам. С одной стороны , появлялись новые крупные игроки на этом рынке (если интересно узнать больше о типах футбольных данных и особенностях инструментов на их основе, то можете найти инфу здесь). С другой стороны — появлялись более сложные модели на основе уже известных подходов (в частности на основе цепей Маркова, которые будут рассмотрены далее) и совершенно новые подходы на основе машинного обучения, например, метрика , которая описывалась в одной из моих статей.

Февраль года ознаменовался сразу двумя громкими анонсами в мире футбольной аналитики, которые интересны нам в контексте модели, описанной ранее. 15 февраля (Karun Singh) презентовал в своем твиттере новую метрику( , которая подробно была описана в одной из статей на sports.ru, а 21 февраля анонсировали новую модель для оценки атакующих действий игроков, назвав ее и рассчитываемую на ее основе метрику — (атакующий вклад). Обе предложенные модели основаны на все тех же цепях Маркова, которые мы рассмотрели ранее.

StatsBomb в своей публикации в явном виде указывают, что их модель является развитием модели разработанной Сарой в 2011 году. На рисунке ниже представлен способ разделения футбольного поля на зоны. Можно наблюдать, что теперь , как было в оригинальной модели Сары.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Ниже будут перечислены основные особенности модели, разработанной StatsBomb.

  • В BPM также как и в модели Сары рассматриваются , которыми может закончится цепочка владения мячом, — и , (всего 84 переходных состояний игры)

  • Среди переходных состояний , которым предшествует остановка игры. в каждой трети поля (атакующая треть, середина, оборонительная треть), в каждой трети поля, и заработанные .

  • . Т.е. в модели BPM выделяют 38 состояний (по количеству зон) для случаев наличия давления и столько же состояний для случаев отсутствия давления.

  • Цепочка владения может включать любое количество переходных состояний

  • (здесь мы понимаем, что для описания процесса используются цепи Маркова) Т.е. если мы находимся в зоне 21, то вероятность паса в зону 28 будет одинаковой для любых предыдущих состояний (в независимости от того, пришел пас из зоны 11, 14 или 22, например)

  • Для всех переходных состояний строится размером 84 x 84, в каждой ячейке которой указывается вероятность перехода из переходного состояния в переходное состояние . Для двух специальных состояний, которые еще называются (поглощающие состояния — т.е. состояния, из которых нельзя попасть ни в какое другое, и вероятность которых равна 1), строится отдельная размером 84 x 2, в каждой ячейке которой указывается изначальная вероятность перехода из переходного состояния в поглощающее состояние Далее на основе матрицы Q рассчитывается путем несложных преобразований линейной алгебры, которые здесь опустим.

  • В результате, на основе построенных матриц (гол или потеря мяча) и непосредственно (т.е. вероятности того, что следующие состояния станут поглощающими). На рисунке ниже схематично представлены используемые матрицы и проводимые вычисления. Финальные вероятности, используемые далее в метрике содержаться в матрице с результатами, которая имеет ту же размерность что и матрица R.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Описанная выше модель тестировалась на данных о событиях Топ-5 европейских чемпионатов, Чемпионшипа и Первой лиги Англии сезонов 2017-2018 и 2018-2019. Для каждого из 84 переходных состояний были рассчитаны вероятности гола и потери мяча в следующем состоянии и количество действий до соответствующих поглощающих состояний (т.е. количество действий до момента когда вероятность гола или вероятность потери равна единице). В результате данных вычислений :

  • P(Goal) = (xG = 0.192)

  • — P(Goal) = (xG = 0.09)

  • — P(Goal) = (xG = 0.083). Данный результат кажется контринтуитивным, т.к. выше мы видели, что вероятность гола из аналогичной зоны при наличии давления со стороны соперника несколько выше. Здесь может иметь место как ошибка в номере зоны в оригинальной публикации, так и демонстрация парадоксальности полученных результатов на основе используемой статистики. Можно предположить, что количество ситуаций, когда атакующий игрок оказывался в зоне 36 (вратарская площадь) без давления, очень мало в собранной статистике (относительно состояний с давлением) и в таких ситуациях игроки чаще упускают шанс забить гол (например, замыкание сильного прострела).

В качестве состояний с наибольшей вероятностью потери были отмечены зоны 1, 2 и 3 с давлением, для каждой из которых вероятность потери равна

На рисунке ниже представлена цепочка владения, которая закончилась голом. Для каждого переходного состояния в данной цепочке приведено значение метрики , которая В рассматриваемом примере нулевое значение соответствует сохранению значения xG в результате действия, отрицательные значения — снижению шансов, а положительные — повышению (данный пример — демонстрационный, в нем опущена информация относительно наличия или отсутствия давления для каждого переходного состояния в рассматриваемой цепочке).

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Для каждого конкретного игрока можно сложить значения contribution по всем действиям и разделить полученный результат на количество сыгранных матчей, в результате чего получить производную метрику — (атакующий вклад игрока за матч в среднем).

В таблицах ниже представлены рейтинги пяти лучших игроков для различных позиций (нападающий, полузащитник, защитник и голкипер) по метрике , полученные на основе марковской модели, разработанной StatsBomb на основе статистики за указанные ранее сезоны. (т.е. актуально на февраль 2019)

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution
Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution
Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution
Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

В данном рейтинге есть ряд футболистов, которых вы можете не знать, это:

  • выступавший в сезоне 2018-2019 году за в первой лиге Англии, который стал чемпионом в том сезоне и заработал путевку в Чемпионшип. Эллиот набрал 15 очков по системе гол + пас в том сезоне и стал лидером по метрике среди (играл как чистого нападающего, так и атакующего полузащитника)

  • , воспитанник , набрал 10 очков по системе гол + пас в сезоне 2017-2018 в аренде за в Чемпионшипе и 20 очков в следующем сезоне в очередной аренде за (также в Чемпионшипе). В рейтинге лучших занял второе место.

  • , выигравший в сезоне 2017-2018 в составе первую лигуАнглии, при этом набрав 26 очков (гол + пас). В следующем сезоне Брэдли продолжил свое выступление за Блекберн, показав также довольно хороший результат — 22 очка. Брэдли замыкает рейтинг пяти лучших .

  • , попавший в компанию лучших (по метрике ) к Киммиху, Боатенгу, Хакими и Марсело, в сезоне 2017-2018 набрал 7 очков с в первой лиге Франциии уже в следующем сезоне повторил свой результат в Германии с

  • — , выступавший в сезоне 2017-2018 за в первой лиге Англии и за в Чемпионшипе в сезоне 2018-2019.

  • — выступавший за в первой лиге в сезоне 2017-2018 и в Чемпионшипе в следующем сезоне.

  • — , выступавший за и в сезоне 2017-2018 в первой лиге Англии и продолживший свою карьеру в Болтоне в следующем сезоне (также в рамках первой лиги Англии)

Аналитики из StatsBomb преднамеренно не стали нормализовывать метрику на "силу чемпионата" и оставили рассчитанные значения в изначальном (сыром) виде. В результате мы получили пятерку лучших полузащитников полностью состоящую из игроков Чемпионшипа и первой лиги Англии, в которых набрать более высокие балы более легко, чем в топ 5 европейских дивизионов (т.е. для одного и того же действия в разных лигах имеет разную значимость, т.к. отличается класс игроков, уровень давления и скорости игры). . В случае введения поправочных коэффициентов для метрики, рейтинги футболистов из низших дивизионов с большой вероятностью будут перекрыты рейтингами игроков из более сильных лиг.

Разработанная StatsBomb модель на основе цепей Маркова довольно хорошо позволяет определять наилучших футболистов по количеству и качеству . Результаты полученные с помощью BPM легко интерпретируемы для людей далеких от статистики и профессиональной аналитики (в отличие от моделей на основе машинного обучения, например, все та же метрика ). Тем не менее у данной модели есть :

  • (отсутствие памяти о прошлых состояниях) . StatsBomb занимается развитием модели и указывает на то, что в будущих реализациях будут использованы которые позволяют обойти указанное ограничение (не будем вдаваться в подробности, просто нужно понимать, что есть самые простые модели на основе цепей Маркова, в которых есть указанное ограничение, и есть более сложные цепи Маркова, в которых данное ограничение отсутствует, )

  • Т.е. модель рассчитывает вероятность перехода из одного состояния в другое, но не учитывает тот факт, что переход может быть совершен в результате паса или дриблинга, например. По идее, вероятности гола (xG) в новом состоянии при переходе в результате действий различных типов должны отличаться. (например, при пасе переход будет более быстрым, чем при простом движении с мячом/дриблинге). Такие модели на основе цепей Маркова с учетом времени перехода уже реализованы в , и .

  • Разработанная модель на основе цепей Маркова предлагает структуру переходных и поглощающих состояний. Т.е. футбольный матч рассматривается в виде набора между различными состояниями в одно из конечных состояний. Данный подход еще называют , т.к. футбол является игрой с довольно "плавно" меняющимися состояниями, в отличие, например, от американского футбола, бейсбола или крикета, которые можно отнести к более дискретным играм (т.е. прерывистыми, разбитыми на множество отдельных эпизодов). Данное ограничение можно обойти используя специальные методы, которые позволяют рассматривать марковские цепи в качестве , но такие методы значительно усложняют модель и ее простую интерпретацию для широкой публики.

Рассмотренная выше является фундаментом для более полноценной марковской модели, в которой будут разрешены указанные выше ограничения. Не знаю на каком этапе в данный момент находится реализация анонсированной модели (более полноценной BPM), но два года назад StatsBomb активно развивал данный инструмент.

)

Как я указывал ранее, метрика уже была подробно описана на sports.ru, поэтому я рассмотрю только ключевые моменты данного инструмента, отражающие ее связь с работой Сары и цепями Маркова.

Введение в модель, позволяющую оценивать ожидаемую угрозу от совершенного атакующего действияначинается с общего анализа моментов игры, в которые команда владеет мячом и находится в состоянии атаки (в английском языке данная фаза игры называется — ; для оценки действий в данной фазе игры существует специальная метрика , о которой можно почитать здесь). Проделанный анализ был основан на данных о событиях АПЛ сезона 2017-2018. В проведенном анализе все поле разбивалось на и для каждой зоны на основе собранной статистики была рассчитана (т.е. была составлена уже известная нам в том числе и непосредственно .

На слайде ниже представлен пример работы построенной модели для оценки того, как может развиваться игровая ситуация в атакующей фазе игры, если игрок находится с мячом в зоне А. Можно наблюдать, что с вероятностью из зоны А последует удар, и с вероятностью будет совершен перевод мяча в одну из выделенных зеленых зон (в результаты паса другому футболисту или продвижению игрока с мячом), причем, . При этом, вероятность гола в данной зоне () составляет

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Как вы могли заметить, в основе построенной модели используется все тот же подход, который ранее был использован в модели Сары — , вероятность которых рассчитывается для собранной статистики, причем для каждой новой зоны вероятности распределяются независимо от того, как мяч попал в данную зону, т.е. используется все тоже основное свойство простых марковский цепей — .

На основе рассмотренной модели вычисляется показатель для каждой указанной зоны, (обычно через 4-5 действий), если игрок находится в определенной зоне. Данное значение рассчитывается для каждой зоны. На слайде ниже изображены футбольное поле и соответствующие значения метрики для зоны для моделей, учитывающих различное количество действий до гола. .

Можно наблюдать, что:

  • при увеличении числа последующих действий в модели, увеличивается соответствующая вероятность гола, что выглядит довольно логично (т.е. если мы находимся в зоне А, то вероятность того, что в , равна (), и если мы находимся в зоне А, то вероятность того, что — ())

  • при увеличении числа последующих действий в модели, увеличивается количество зон вокруг ворот, которые окрашиваются в более яркий зеленый цвет, т.е. увеличивается количество зон, для которых значение метрики xT значительно превышает 0, что также выглядит довольно логично, т.е. чем больше действий мы закладываем в модель, тем больше вариативность зон, из которых может стартовать опасная цепочка владения, имеющая потенциал закончиться взятием ворот.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Метрика xT вычисляется по не совсем простой формуле, детальный разбор которой значительно перегрузит и так не самую легкую для восприятия широкой аудиторией информацию, поэтому опустим объяснения. следующего слайда заключается в том, чтобы . Ниже я структурно обозначил основные составляющие, которые используются при вычисления xT для каждой зоны поля.

Можно наблюдать, что (показатели, выделенные цветом).

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

Ниже разбирается пример, в котором демонстрируется способ оценки атакующих действий игроков, опираясь на рассчитанные значения xT для каждой зоны футбольного поля. , данная разность является финальной оценкой, которую получает игрок за совершенное действие. Также оценка xT для каждого действия позволяет оценивать процентный вклад игроков в созданный голевой момент. В рассмотренном примере из двух передач и последующего удара, который привел к голу, использование метрики xT позволяет выделить действие Игрока 1, вклад которого составил 72% в общую опасность созданную совместно Игроком 1 и Игроком 2, совершившим голевую передачу.

Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution

:

Марковские модели являются одним из самых эффективных способов оценки атакующих действий футболистов на поле. Первая модель на основе цепей Маркова, предложенная широкой аудитории в 2011 году, заложила фундамент для других, более сложных моделей, которые продолжают развиваться в настоящее время (, ). Рассмотренные инструменты имеют ряд ограничений, которые снижают качество получаемых оценок из-за потери информации о игровом процессе, что оставляет потенциал для дальнейшего улучшения (дальнейшее усложнение рассмотренных моделей). Основным конкурентом моделей на основе цепей Маркова остается метрика , полученная на основе применения моделей машинного обучения (сравнение с метрикой было проведено здесь)

Источник: sports.ru
Получи бонус на первый депозит! Сделай ставку!

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here

3 + одиннадцать =