社交平台Discord,公开了迄今为止规模最大的聊天记录数据集——Discord Unveiled。 该数据集涵盖十年间,共计20.5亿条用户消息,涉及超过470万用户,是目前公开的结构最完整、信息最丰富的社交平台数据集之一。 具体来说,这些数据—— - 覆盖面广:数据来源于Discord“Discovery”中10%的公共服务器,时间横跨2015年到2024年12月。 - 机器人活跃:这些消息中,约17%由机器人账号发布,主要用用来管理频道、互动娱乐和自动化服务。 - 语言多样:尽管英语占主导,但数据中也包含大量西班牙语、法语、俄语和葡萄牙语内容。 - 热门主题:游戏是最核心的讨论主题,但社交、角色扮演、动漫以及心理健康等话题也很活跃。 - 匿名处理:所有用户名已替换为假名,ID也进行了加密处理,确保符合数据保护条例。【图2】 - 研究价值:该数据不仅可用于训练LLM,也为自然语言处理(NLP)、社群治理心理健康等领域,提供了重要资源。 这不仅是对Discord十年演化的真实记录,也为社会学、人工智能等研究打开了一道“真实社交世界”的大门。 下载方式:zenodo.org/records/15170676 论文地址:arxiv.org/abs/2502.00627