下一图集
性能暴跌25%:高通旗舰芯片骁龙8 Gen 3今年或提早发布
这种海量重复实验的方式在理想中显然不可行,假如你想教一个机器人抓取目的,或者教一台自动驾驶车学会驾驶,如此多的重复次数是不行的。地道的强化学习只能适用于虚拟世界,那里的尝试速度要远远快于理想世界。 [查看原文]
<< 上一图集
下一图集 >>