DeepMind三人组挑战股市，曾开发出首个战胜职业玩家的德州扑克AI 新智元报道编辑：LRS【新智元

文章图片
新智元报道
编辑：LRS
【新智元导读】首个战胜德州扑克职业玩家的AI系统， DeepStack的三位开发人员最近离职DeepMind ，宣布将用强化学习技术征战股市，收获的种子轮融也是破了捷克共和国的纪录。
开发算法来自动买股票可以说是每个机器学习从业者都想干的事了，只要研究好策略，再训练一个模型，简直就是躺赚啊！

文章图片
最近DeepMind的三位前员工也开始研究上了怎么自动买公司股票和加密货币，以便能够赶在上涨前买入一波。
MartinSchmid ， RudolfKadlec和MetejMoravcik三人在1月份辞职离开DeepMind后，就转而在捷克共和国的布拉格成立EquiLibreTechnologies公司。

文章图片
MartinSchmid任CEO ，除了在DeepMind任过研究科学家外，还曾是IBMWatson的研究科学家，主要研究方向为算法博弈论和机器学习，在布拉格查尔斯大学获得博士学位。
MetejMoravcik任CSO ，主要研究方向为游戏理论和强化学习。
RudolfKadlec任CTO ，曾是DeepMind技术领导和高级研究工程师， IBM的高级研究科学家，研究内容曾被GPT模型采用。
这个三人组的特殊之处在于：2017年时， Schmid和Moravcik曾合作开发出DeepStack ，为首个在德州扑克战胜人类职业玩家的AI系统。在DeepMind时，他们又共同写了一篇论文，也是首个在完美和不完美信息游戏中都表现出色的AI系统。

文章图片
论文地址：https://arxiv.org/pdf/2112.03178.pdf
德州扑克是典型的不完美信息博弈游戏，在一对一无限注中包含10的160次方个决策点（decisionpoints），每个点都根据出牌方的理解有不同的路径。
DeepStack结合使用循环推理来处理信息不对称，使用分解将计算集中在相关的决策上，并且使用深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。
也正是DeepStack的横空出世，让AI模型从此有了「直觉」。

文章图片
而股票市场显然也是一种不完美信息博弈游戏，而且市场前景要比德州扑克更大，不过竞争对手显然也更多。
有相当多的从业者试图从各种不同的角度出发试图搭建一个更强大的AI交易系统：比如用NLP模型爬取金融的公开信息，对文章进行关系抽取判断市场的狂热和悲观情绪，对预期做出判断；
也有人采用先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史数据中海选能带来超额收益的多种大概率事件以制定策略，如各种量化交易的模型等。

文章图片
而这三人组则是想接着走DeepStack的老路，将原来模型中的一些想法、概念套用到金融市场里。
也就是说还用强化学习技术来训练AI系统做出购买和出售股票的决策以最大化利润，比如DeepStack是在扑克对局中取得优势就会获得reward ，股票市场则是套利后获得reward ，本质上都是一样的。
Schmid表示他并不担心监管机构会对这项技术进行制裁，因为其他公司已经在做类似的事情。
事实上， EquiLibreTechnologies将与AI算法选股产品Candlestick和Yuyostox等进行竞争。
目前市场上大部分的交易都是算法化的， Schmid表示，他们想做的就是一个更好的算法而已。