Factorio学习环境
Factorio学习环境
目标受众主要是AI研究人员、机器学习开发者以及对语言模型性能评估感兴趣的技术人员。对于AI研究人员,FLE为他们提供了一个全新的评估环境,有助于深入了解语言模型在复杂任务中的表现,为模型改进提供方向;机器学习开发者可以利用该环境测试和优化自
总访问量: 32,621
占比最多地区: US(67.82%)
660
简介
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试,FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战,拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发,以开源形式发布,免费使用,定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。
截图
产品特色
- **提供开放式挑战**:从基础自动化到复杂工厂的建设,处理每秒数百万资源单位的生产任务,测试模型在复杂环境下的能力。
- **设置两种评估协议**:Lab-play包含24个结构化任务,用于针对性评估特定能力;Open-play让模型在无预设终点的情况下,从无到有建设最大工厂,评估自主设定和实现复杂目标的能力。
- **支持程序交互**:通过Python API,模型可与环境直接交互,提交程序并接收反馈,以此优化策略。
- **评估模型能力**:通过生产得分和达成的里程碑,评估模型在规划、自动化和资源管理等方面的表现。
- **揭示模型局限性**:帮助研究人员发现模型在空间推理、错误恢复、长期规划等方面的不足。
- **促进研究发展**:开源平台及评估协议,为AI研究提供了新的工具和思路,推动相关领域发展。
使用教程
1. 准备好能运行相关程序的环境,确保安装了Python等必要工具。
2. 从项目开源渠道获取FLE的代码及相关文件。
3. 熟悉FLE提供的Python API,了解其中的工具函数,如craft_item、place_entity等的使用方法。
4. 根据研究或测试需求,选择Lab-play或Open-play评估协议。
5. 针对选定的评估协议,编写模型与环境交互的程序,设定目标和策略。
6. 运行程序,让模型在FLE中执行任务,并根据模型的生产得分、达成的里程碑以及产生的错误等反馈信息,分析模型性能。
7. 根据分析结果,对模型或程序进行调整和优化,再次进行测试。
流量来源
直接访问36.21%外链引荐7.65%邮件0.04%
自然搜索42.24%社交媒体13.56%展示广告0.18%
最新流量情况
月访问量
32.62k
平均访问时长
84.40
每次访问页数
1.49
跳出率
59.63%
总流量趋势图
地理流量分布情况
美国
67.82%
德国
6.95%
瑞士
3.86%
澳大利亚
3.75%
英国
3.46%
地理流量分布全球图
同类开源产品
MIT MAIA
优质新品
MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。
研究工具#自动化
Arxiv Summarizer
该产品是一个 Python 脚本,利用 Gemini API 从 arXiv 获取和总结研究论文。
研究工具#论文摘要
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能
Surfsense
SurfSense 是一款开源的 AI 研究助手,它将多种外部资源(如搜索引擎、Slack、Notion 等)整合在一起,帮助用户高效地进行研究和信息管理。
研究工具#信息管理
Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源
Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动
Search R1
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。
模型训练与部署#自然语言处理
Genprm
GenPRM 是一种新兴的过程奖励模型(PRM),通过生成推理来提高在测试时的计算效率。
模型训练与部署#生成推理
Atypica.ai
中文精选
Atypica.AI 是一个专注于商业研究的智能体框架,利用语言模型来分析和理解消费者情绪、市场认知与决策偏好。
研究工具#消费者行为
替代品
Arxiv Summarizer
该产品是一个 Python 脚本,利用 Gemini API 从 arXiv 获取和总结研究论文。
研究工具#论文摘要
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能
Surfsense
SurfSense 是一款开源的 AI 研究助手,它将多种外部资源(如搜索引擎、Slack、Notion 等)整合在一起,帮助用户高效地进行研究和信息管理。
研究工具#信息管理
Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源
Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动
Search R1
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。
模型训练与部署#自然语言处理
Arthur Engine
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。
模型训练与部署#机器学习
Smoldocling
SmolDocling-256M-preview是由ds4sd推出的一个具有256M参数的语言模型,专注于医学领域。
研究工具#医学文本处理
Factorio学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。
模型训练与部署#Factorio游戏