开悟智能交通灯赛道记录

ChainPray 发布于 2024-11-26 177 次阅读


11.15答辩完都过去两周了,结果到现在才有空写一写总结;以及2W奖金到现在一点消息没有,TX干啥呢

整体流程

  1. 6月左右报名
  2. 暑假学习期,开悟提供学习环境
  3. 八月底公布赛题
  4. 正式赛期间每周都有天梯赛,但是不计入总成绩
  5. 7轮天梯后提交最终模型线上跑榜,前12进入线下答辩环节
  6. 答辩前提交技术报告和路演PPT;答辩过程就是10minPPT+5min提问
  7. 答辩结束立马统分排名,统分方式线上成绩+线下答辩*30%,其中线上成绩根据排名梯度赋分,从24~70之间

开赛前

大一刚进来就听过了开悟人工智能赛了,当时是一个22的学长(bill)在打,然后最后水了个第四拿了1w;然后我一听有米捞,很好啊,于是24年的6月就报名了。

先说下今年的改革吧

  • 以前开悟就只有王者赛道,王者赛道分三块——本科赛道,研究生赛道和企业赛道(工程赛道应该是企业);但是今年开悟估计是有四川政府资助的,又新开了两个企业赞助赛道——一个是AI算子优化,一个是成都交投的智慧交通调度赛道
  • 今年每个赛道本硕博混合,这就导致了王者赛道直接卷爆;

这里首先说一下bill那个前4到底有多水:我这次打的是交通灯赛道,然后答辩完和其他选手交流的时候得知了他们都是王者赛道被打爆了,去年本科第一,研究生组第四等等一堆队伍今年八强都没进;然后详细一问结果说是去年算法不需要怎么优化,就放那一直跑模型,跑的时间越长agent探索的可能性越多胜率就越大,谁跑的时间长谁就拿第一

(其实我本来也打算报王者赛道的,但是社团老学姐极力推荐交通灯,说简单,然后我就先报了交通灯,等去报王者的时候发现截止了,现在看来还是老学姐英明啊)

暑假准备期

yysy没啥准备,就是先学Q-learning然后DQN,写了个井字棋的Q-learning练练手

官方在暑假设置了峡谷漫步的学习期,不过我家里有点事就没时间打了

正式赛

八月底开了正式赛,我记得当时周五晚上我们团建还在吃铁锅炖,开悟群里突然说下午刚开放的天梯今晚12点结束,害得我们回去后光速跑了个baseline交上去,结果周末通知说是天梯不计分,之后我们就再也没打过天梯了,直接藏模型(doge)

官方是给了一个DQN算法的的baseline,本身就已经能跑挺高的分了,我们后面就是一直基于这个算法改进的;虽然说PPO或者A3C之类的也能写,但我一直没学明白所以就没尝试了

然后这个比赛最抽象的是环境有bug,官方文档里说是黄灯固定5s,代码里有修改黄灯时间的地方不过改了没有用;但是还是有办法把黄灯时间卡短,我就是用很小的持续时间step把黄灯卡短才拿到的线上跑榜第4;更离谱的是第一名panda队直接在PPT里明写着他“把直行切左转的黄灯间隔时间改为0s”,怪不得他直接甩了第二名100多分,结果靠的是更好的bug

也是因为这个bug吧,我后面有个港中深的博士团队,听他的PPT讲起来就很NB,用自己实验室5篇相关论文实现的算法,我都觉得他应该拿第一名,但是跑分没有没有我一个卡了bug的本科生高,这就很荒谬

当一个本科生越级打研究生的时候你可以认为这个本科生很NB;但当一个本科打博士团队的时候,就需要质疑这个比赛的环境是否存在问题了

不过bug归bug,荒谬归荒谬吧,我从一开始就是奔着捞钱去的,既然2w捞到手了,那么开悟的诸般事宜也就雨我无瓜了(明年别修bug最好)

赛后反思

整体打下来最大的感受就是RL中最重要的是仿真环境,这次比赛环境的问题真的很多

  • 首先是车辆的排队长度我们自己计算的和官方监控的数值曲线怎么都对不上
  • 其次是看回放的时候发现车辆监控存在延迟,通过日志打印的车辆信息和我们在回放器上看到的车辆排队情况差别很多,看了很久的回放才发现应该是延迟问题

除了环境以外还有一个问题就是在这个赛题中马尔可夫性究竟能不能满足,不满足的话从理论上就是不能用RL算法的;或者说使用RL训练的模型很难收敛。

马尔可夫性一个要求就是当前状态与过去的历史无关,只与当前状态有关,然而这个赛题的最终分数是过程中所有指标值(排队,等待,延误)的平均来计算的,这就意味计算当前价值的时候要考虑到过去所有的指标值,按照这个这个指标设计reward的话就破坏了马尔可夫性

官方给的baseline中reward是 过去指标-当前指标 ,这样满足了马尔可夫性,但是最终的reward求和算得的Q值代表 最终action指标的相反数,也就是这个reward设计的目的是使得最终时刻指标最小化;显然这和平均指标没有能够证明的单调关系,所以baseline能收敛是合理的,但是并不适合这个赛题的分数计算方式

深圳大学腾讯创新俱乐部的一名TICer,目前致力于成为全栈工程师
最后更新于 2024-12-09