RedPajama-Data 重现 LLaMA 训练数据集的开源配方

授权协议:None操作系统:None 开发语言:None
RedPajama-Data 存储库包含用于准备用于训练大型语言模型的大型数据集的代码。 此 repo 包含 RedPajama 数据的可重现数据接收,具有以下 token 计数: Datase...