DGA数据集和算法研究

信息安全不简单鸭 2024-04-20 05:58:43

2023年12月22日,已经支持下载DGArchive数据集[1]和360 dga 数据集[2]。

针对DGA的研究现在已经很多了,cnki 里面有116篇论文,涉及到dga黑样本,域名白名单,dga算法分析等,在数据集和dga原理的基础上,提出创新检测方案。因此,抽取共性,综合各家dga之所长,屏蔽之所短,不失是研究dga的一种好的方法。总的来说,做研究的本质,就是多读论文,论文看多了,思路自然就有了。

ailx10

网络安全优秀回答者

网络安全硕士

去咨询

DGArchive数据集[3],千万级数据源,需要使用学校或企业邮箱申请访问账号,作者人很好,轻轻一申请,就能得到,我已经把数据转储到我的网盘了。免费下载:求dgachive数据集,最近做dga安全检测实验需要?求大佬分享一下,谢谢。

360 dga 数据集[4] ,百万级数据源,完全开放且是最新的数据,目前很多国内博客dga检测,都是基于这套数据集做的训练和阻断封装。免费下载:求博主分享360dga域名,用于机器学习,训练自己的ai模型。

截至2022年5月,开源的若干DGA算法star统计如下:

star

DGA作者

语言

更新日期

501

baderj

python3

1天前

174

andrewaeva

python2

6年前

59

pchaigno

python3

6年前

作者 baderj:生成随机的dga域名[5] ,我看了里面的 chinad dga算法(根据日期生成16位的随机域名)作者 andrewaeva:生成随机的dga域名[6],我看了里面的 zeus dga 算法(根据日期生成25位的随机域名)作者 pchaigno:生成随机的dga域名[7],我看了里面的 necurs dga算法(根据日期生成7~21位的随机域名)

由于随机域名不符合人读习惯,很容易被肉眼识别,于是黑客又使用了另一类dga域名。它们由多组可读的短语随机构成,比如"zhihu-love-china"(忽略-),然后加上TLD构成一个合法的域名,这样就躲避了常规的dga算法检测,里面的代表性dga域名有很多,这里仅仅列出2个仅供参考。

andrewaeva:里面的matsnu dga域名,是由1个verbs词汇(878个)和多个nouns词汇(1008个)随机组成baderj:里面的gozi dga域名,默认的luther表有1537个词汇,随机挑选若干个生成长度为12~23的域名参考^dga下载 https://www.zhihu.com/consult/conversation/1516108720962150400/archive?ab_signature=CiRBT0FSdHBSOEhSVkxCVU9BaVlPUTVtNzA1X1dlNWswSUhNRT0SIDA5ZGI0M2ZiOGRlZWUyMDc2ZDY2ZDRjNzhhYzk2MjA4GhEIARIGOS4yMi4wGgUxODAwMw==^dga下载 https://www.zhihu.com/consult/conversation/1721540386210873345/archive^dgarchive 数据集 https://dgarchive.caad.fkie.fraunhofer.de/^360 dga 数据集 https://data.netlab.360.com/dga/^baderj https://github.com/baderj/domain_generation_algorithms^DGA https://github.com/andrewaeva/DGA^dga-collection https://github.com/pchaigno/dga-collection
0 阅读:0

信息安全不简单鸭

简介:感谢大家的关注