微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?

微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?

文章图片

微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?

文章图片

微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?

文章图片

微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?

文章图片


看了今年澳网男单决赛的球迷 , 肯定会对下面这幅图印象深刻 。

在赛前 , 以大数据算法预测纳达尔获胜的概率只有36% 。 输掉前两盘后 , 纳达尔获胜的概率跌到了4% 。 令我好奇的是 , 到了第三盘 , 2-3 , 0-40面临连续3个破发点时 , 纳达尔获胜的概率会跌到多少 , 想必应该在1%以下吧?

【微软|纳达尔的决赛胜率从36%跌到4%却最终获胜,大数据预测错在哪?】最终的结局给以上预测啪啪打脸 , 纳达尔五盘逆转战胜了梅德维德夫 。 大数据预测与实际结果相差甚远 , 这成了今年澳网决赛的一个热门话题 。
我们不禁要问 , 大数据的预测分析到底错在哪?
然而 , 负责这项工作的人并不认为他们错了 , 并且坚称36%和4%的数据是合理的 。 过去的统计数据证实 , 纳达尔总共在大满贯打了338场比赛 , 其中有19场比赛是先输2盘 , 只有2场完成了“让二追三”的逆转 , 胜率不足11% 。

更重要的是 , 在先输两盘的19场比赛中 , 有13场是对阵Top10球员 , 纳达尔全部落败 。 直到今年澳网男单决赛结束 , 纳达尔才赢得了1场比赛 。
算法并不能准确预测输赢 , 它仅是基于纳达尔过去的历史成绩 , 揭示他在今年澳网决赛相同的情况下会有什么样的表现 。 这类似于天气预报的降水概率 , 通常来说 , 具备某种条件(温度、气压、湿度等)的情况下 , 历史上降水的概率是30% , 假如现在具备了这些条件 , 那么可以预报说降水概率是30% 。

“我们的工作首先是在过去的比赛中找出与今年澳网决赛相类似的比赛 , 然后对这些比赛进行统计分析 , 进而计算出纳达尔今年澳网决赛的胜负概率 。 很多人认为 , 4%的结果意味着纳达尔会输掉这场比赛 。 实际上 , 我们想要传达的意思并不是这样 , 我们只是说 , 在那种情况下 , 打100次 , 纳达尔会赢4次 , 但这一次他到底是赢还是输 , 没有人知道最终结果 。 ”负责此项工作的Jesús Lagos 解释说 。
Jesús Lagos目前供职于西班牙一家名为ScoutAnalyst 的数据咨询公司 , 他们的主要工作就是利用大数据计算分析体育比赛的胜负 。

我们也可以将4%的胜率理解为 , 假如今年澳网决赛有100个平行宇宙的话 , 那么这场决赛就可以打100次 , 大数据算法结果是纳达尔赢4次 , 梅德维德夫赢96次 , 而我们恰巧处于纳达尔赢得决赛的那个平行宇宙之中 。
在足球分析公司Driblab的首席执行官Salva Carmona看来 , 给纳达尔打出4%的获胜概率已经“非常慷慨了” 。 因为在网球公开赛时代以来 , 只有6名球员在大满贯决赛中做到了“让二追三”的壮举 , 分别是:比约·博格(1974年法网)、伊万·伦德尔(1984年法网)、安德烈·阿加西(1999年法网)、加斯顿·高迪奥(2004 年法网)、多米尼克·蒂姆(2020年美网)和诺瓦克·德约科维奇(2021年法网) 。

即便如此 , 低至4%的胜率与最终结果还是有着巨大反差 , 以上解释仍难以让人信服 。 数据分析公司显然也意识到他们的算法存在缺陷 , 还有尚待改进和完善的地方 。