工作来源
WTMC 2024
工作设计
利用在 2023 年 9 月到 11 月间,上传到 MalwareBazaar 的 63.5 万个恶意软件样本,与 VirusTotal 给出的相关信息进行分析。
工作准备
数据集情况如下所示,从中抽取了 1500 个最近提交的恶意软件样本子集并连续 90 天检索 VirusTotal 的分析结果。
可以看出,大多数恶意软件能够被 80% 的引擎识别。检测样本文件为恶意文件的引擎占比以 60% 为界,大约 67% 的恶意软件能够被 60% 的引擎检出。
工作评估
最常见的样本与最低检出率 TOP10 家族情况如下所示,像 qbot 与 sload 这样样本数量庞大但检出率较低的家族就应该被重视。
Emotet、AgentTesla、Dridex 等家族的大多数样本都具有较高的检出率,只有不到 20% 的样本检出率低于 60%。而 sload、encdoc、sneaky 等家族的大多数样本都具有较低的检出率,隐蔽性较好。
60% 的分析结果距离首次上传到 VirusTotal 都小于 71 天,但这些仍然多数都有 60% 以上的检出率。
从回归线可以看出,mirai、qbot 和 sload 家族的检测率会随着时间而提高,尽管 sload 在改善后也并没有达到比较高的检出率。而 Valyria 在较长时间内,引擎的检出率都没有明显变化。
第一天 1500 个恶意样本的检出率约为 64%,30 天内检出率提升至 69%,30 天后检出率就没有显著变化了。
根据 VirusTotal 的数据条款,不能透露具体引擎的名称。TOP 20 家族的检测情况如下所示,竖向为一个检测引擎,横向为一个恶意软件加载。各个检测引擎的检测能力差异巨大,大体可以分为三种类型:① 最左侧均等深色的引擎,表现很差 ② 最右侧均等浅色的引擎,表现很好 ③ 绝大多数引擎都不可避免地会存在弱点和盲区。有一些检测引擎能够表现出近乎完美的检测能力,说明在这样的场景下对比其实也是存在最优解的。
通过蒙特卡洛模拟来评估检测能力和检测成本的平衡点,模拟 100 次每次随机选择 20 个检测引擎。由图可知,最佳的检测引擎数量在 5 到 7 间,更多的检测引擎难以对检测效果带来明显的改善。检测能力随着时间推移也会跟着提升,但并不明显。
模拟评估安全投资对业务运营的影响,过程不赘述,感兴趣请看原文。14 名安全和 IT 主管针对三种不同场景进行了 77 次模拟,分别面临常规网络威胁、恶意软件威胁以及支付赎金条件下的恶意软件威胁。
超过 50% 的参与者无法制定有效的风险管理策略来对抗恶意软件,平均需要参与三次才能设计出有效的网络安全风险管理策略。
难以检测的恶意软件可以绕过合理的网络风险管理策略,并显著影响风险与性能。
工作思考
针对文件的分析与检测,需要系统性和科学的设计,测量可以反映内在的规律和特性,有助于理解和进一步的设计。