On the Feasibility of Cross-Language Detection of Malicious Packages in npm and PyPI

{2023}, {Piergiorgio Ladisa, Serena Elisa Ponta, Nicola Ronzoni, Matias Martinez, Olivier Barais}, {ACSAC'23}

Key Points

跨语言恶意包检测
\(GL_4\)
XGBoost
香农熵

Summary

本文聚焦 npm（JavaScript）和 PyPI（Python）生态的开源供应链恶意包检测问题，针对现有机器学习方法多局限于单语言、样本稀缺的痛点，提出基于语言无关特征的跨语言检测方案。作者首先构建包含恶意样本（来自 BKC，去重后共 194 个）和良性样本（来自 libraries.io 流行包，共 1640 个）的单语言与跨语言数据集，提取 141 个语言无关特征（如安装钩子使用、字符串香农熵统计、GL₄编码后的同质 / 异质字符串计数等）；随后用 DT、RF、XGBoost 训练模型，通过 5 折交叉验证发现 XGBoost 在精确率与召回率间平衡最佳；最后通过 10 天扫描 npm/PyPI 新包的真实实验，识别出 58 个未知恶意包并补充到 BKC，验证了跨语言检测的可行性 —— 跨语言模型在 npm 生态误报更少，在 PyPI 生态能多识别真正例，为缓解单语言样本稀缺问题提供了新思路。

Research Objective(s)

验证 “捕捉 JavaScript 与 Python 恶意包共性、实现跨语言检测” 的可行性；
对比单语言与跨语言模型，找到在精确率和召回率间平衡最优的模型（回答 RQ1）；
评估最优模型在真实场景（新上传包）的恶意检测性能（回答 RQ2）；
克服单语言检测中样本稀缺的挑战，扩展恶意包检测的覆盖范围。

Background / Problem Statement

当前开源供应链高度依赖 npm、PyPI 等公共仓库，恶意用户通过发布含恶意代码的包大规模传播 malware；现有机器学习检测方法多针对单语言（如仅 npm），且依赖的标注数据集（如 BKC）样本量少；尽管 JavaScript 与 Python 语法不同，但两者恶意包存在共性（如利用安装脚本、含混淆字符串 / URL）。

Problem Statement

单语言检测模型受限于样本稀缺，难以扩展到多生态；
缺乏基于语言无关特征的跨语言检测方案，无法利用多语言样本提升检测能力；
现有方法需验证在真实场景（新上传包）的有效性，尤其是精确率（减少误报以降低人工审核成本）

Method(s)

数据集构建
- 恶意样本：来自 BKC，去重（过滤多版本、同 campaign、特征重复样本）后保留 npm102 个、PyPI92 个；
- 良性样本：从 libraries.io 选流行包（按 SourceRank 排序），按 90:10（良性：恶意）比例取 npm918 个、PyPI828 个；
- 数据集类型：2 个单语言数据集（仅 npm / 仅 PyPI）、1 个跨语言数据集（npm+PyPI）。
特征提取
- 141 个语言无关特征，涵盖 4 类：安装钩子使用（如 setup.py、package.json 的 preinstall 脚本）、代码混淆特征（字符串 / 标识符的香农熵均值 / 标准差 / 3rd 四分位数 / 最大值、GL₄编码后的同质 / 异质计数）、敏感字符串（URL/IP/Base64 字符串计数）、包结构特征（文件行数、特定扩展名文件数）。
模型训练与优化
- 算法：选择 DT、RF、XGBoost（适配不平衡数据集、可解释、支持高维特征）；
- 调参：用贝叶斯优化（BO）+5 折交叉验证，以精确率为目标函数优化超参数。
评估方法
- 受控实验：5 折交叉验证（分层抽样保持 90:10 比例），评估精确率、召回率、F1、准确率；
- 真实实验：10 天（2022.10.24-11.2）扫描 npm/PyPI 新包，手动审核模型标记的恶意包以确认 TP/FP。

是否基于前人的方法？基于了哪些？

基于 Sejfia et al. [30] 和 Ohm et al. [24] 的部分特征（如安装钩子、敏感字符串），但扩展为语言无关特征；
采用 BKC 数据集（前人常用的恶意包数据集），并优化样本去重逻辑；
借鉴前人用 DT、RF 检测恶意包的经验，新增 XGBoost 算法验证；
参考 Ohm et al. [24] 的 90:10 良性 - 恶意样本比例设置。

Evaluation

作者如何评估自己的方法？

分两步：先通过受控实验（5 折交叉验证）对比单语言 / 跨语言模型的性能，筛选最优模型；再通过真实实验（10 天新包扫描）验证最优模型在实际场景的有效性。

数据集、基线模型

数据集：
- 受控实验：单语言数据集（npm：102 恶意 + 918 良性；PyPI：92 恶意 + 828 良性）、跨语言数据集（194 恶意 + 1640 良性）；
- 真实实验：31292 个新包（npm+PyPI，10 天内上传）。
基线模型：DT、RF、XGBoost 的单语言（仅 npm / 仅 PyPI）与跨语言（npm+PyPI）模型，共 9 个模型。

感兴趣实验数据和结果有哪些？

受控实验（5 折交叉验证）
- XGBoost 表现最优：npm 单语言模型 F1 84.4%、PyPI 单语言模型 F1 68.0%；跨语言模型在 PyPI 场景略优于单语言（F1 66.9% vs 68.0%，差距小）；
- DT 精确率高但召回率低（如 PyPI 单语言 DT 精确率 81.6%、召回率 28.9%），实用性差。
真实实验
- 共识别 58 个未知恶意包（npm38 个、PyPI20 个），均被仓库移除并补充到 BKC；
- 跨语言 vs 单语言：npm 场景两者精确率均 3.1%（跨语言 FP 少 146 个、TP 少 1 个）；PyPI 场景跨语言 TP 多 2 个，但 FP 多 598 个，精确率降至 1.4%（单语言 3.1%）。
特征有效性
- 安装钩子、Markdown 文件数量是关键特征：81% 的 npm 恶意包用安装钩子（良性包仅 2%），恶意包含 Markdown 文件比例远低于良性包（npm25% vs 82%）。

有没有问题或者可以借鉴的地方？

问题：
1. 模型依赖 BKC 样本，仅能检测已知恶意行为（如反向 Shell、数据窃取），无法识别新类型恶意包（如克隆良性包注入单条恶意代码）；
2. 未评估召回率（未审核模型标记的良性包，无法确定漏检数）；
3. PyPI 跨语言模型 FP 过高，泛化能力待提升。
借鉴：
1. 语言无关特征设计可复用（无需维护语言特定 API 列表）；
2. 跨语言训练能缓解样本稀缺，适合小生态检测；
3. 真实场景长期扫描 + 手动审核的验证方式，提升结论可信度。

Conclusion

模型性能：XGBoost 在单语言和跨语言场景中，均实现精确率与召回率的最佳平衡，是最优模型；
跨语言可行性：JavaScript 与 Python 恶意包的共性（安装钩子、混淆字符串）支持跨语言检测，跨语言模型在真实场景有效，共识别 58 个未知恶意包；
特征价值：安装钩子、Markdown 文件数量、字符串香农熵等语言无关特征，能有效区分恶意与良性包；
扩展潜力：方法可移植到支持安装钩子的生态（如 RubyGems、Composer）。

Thought(s)

扩展生态与恶意类型：将方法扩展到 Ruby、PHP 生态，验证跨语言通用性；针对 “克隆良性包注入恶意代码” 等新类型，设计代码增量对比特征；
特征与模型优化：结合动态分析（如沙箱执行）补充静态特征，减少 FP；引入作者信誉、包更新频率等非代码特征，提升检测鲁棒性；
召回率评估与改进：设计大规模良性包抽样审核方案，量化模型召回率；采用半监督学习利用未标注数据，提升对新恶意类型的检测能力；
工程化落地：优化模型推理速度，适配仓库实时扫描场景；设计分级告警机制（如高风险包优先人工审核），降低运营成本。

Notes

本文使用Pgments词法分析器来解析和处理被分析软件包的源代码文件（.js，.py）以及安装脚本（package.json，setup.py）。从这些文件中，我们提取以下类型的词法标记：字符串、标识符、运算符和标点符号。
针对代码混淆方面，本文使用香农熵+泛化语言（GL）解决，因为可能一个恶意软件包中，大部分代码经过GL编码后的熵值低，但是某些恶意代码块编码后熵值高（经过Base64编码后）
针对敏感字符串方面，本文通过构建攻击性安全备忘录（例如，反向 shell、敏感文件路径）中构建一个关键词字典。这些关键词既包含纯文本形式，也包含不同的编码形式（例如，base64、base32、rot-13、URL 编码）。相应的特征是命中该字典的次数。
本文中的图一是相对来说在其他论文中没怎么见到过的一种图形式——小提琴图，论文通过这类分布图，筛选出 “恶意包和良性包差异最显著” 的特征（如 “安装脚本中的 URL 数量”“标识符香农熵”），作为后续机器学习模型的输入（比如用这些特征训练分类器，区分恶意 / 良性包）。
5 折交叉验证就是把数据集拆成 5 份，循环用 4 份训练、1 份测试，最后平均结果 ，目的是让模型评估更稳定、更可信，是论文 / 项目里证明模型有效性的 “标配操作”~
(Optional) 不在以上列表中，但需要特别记录的笔记。

References

香农熵

Piergiorgio Ladisa, Henrik Plate, Matias Martinez, Olivier Barais, and Serena Elisa Ponta. 2022. Towards the Detection of Malicious Java Packages. In Proceedings of the 2022 ACMWorkshop on Software Supply Chain Offensive Research and Ecosys- tem Defenses (Los Angeles, CA, USA) (SCORED’22). Association for Computing Machinery, New York, NY, USA, 63–72. https://doi.org/10.1145/3560835.3564548

泛化语言（GL）

Zhipeng Huang and Yeye He. 2018. Auto-Detect: Data-Driven Error Detection in Tables. In Proceedings ofthe 2018 International Conference on Management of Data (Houston, TX, USA) (SIGMOD ’18). Association for Computing Machinery, New York, NY, USA, 1377–1392. https://doi.org/10.1145/3183713.3196889

攻击性安全备忘录

Piergiorgio Ladisa, Henrik Plate, Matias Martinez, Olivier Barais, and Serena Elisa Ponta. 2022. Towards the Detection of Malicious Java Packages. In Proceedings of the 2022 ACMWorkshop on Software Supply Chain Offensive Research and Ecosys- tem Defenses (Los Angeles, CA, USA) (SCORED’22). Association for Computing Machinery, New York, NY, USA, 63–72. https://doi.org/10.1145/3560835.3564548

良性样本和恶性样本比例也有影响

Marc Ohm, Felix Boes, Christian Bungartz, and Michael Meier. 2022. On the Feasibility of Supervised Machine Learning for the Detection of Malicious Soft- ware Packages. In Proceedings ofthe 17th International Conference on Availability, Reliability and Security. 1–10.

结合代码复现器和简单克隆检测器的监督学习方法，用于 npm 中恶意软件包的自动检测

Adriana Sejfia and Max Schäfer. 2022. Practical Automated Detection ofMalicious npm Packages. arXiv preprint arXiv:2202.13953 (2022).

利用监督学习技术检测恶意软件包的可行性

Marc Ohm, Felix Boes, Christian Bungartz, and Michael Meier. 2022. On the Feasibility of Supervised Machine Learning for the Detection of Malicious Soft- ware Packages. In Proceedings ofthe 17th International Conference on Availability, Reliability and Security. 1–10.

通过无监督签名生成来检测恶意包活动的方法，该方法基于代码重用。具体来说，他们从 npm 包中生成抽象语法树（AST），并将它们聚类，以便识别具有共同特征的包。

Marc Ohm, Lukas Kempf, Felix Boes, and Michael Meier. 2020. If You’ve Seen One, You’ve Seen Them All: Leveraging AST Clustering Using MCL to Mimic Expertise to Detect Software Supply Chain Attacks. CoRR abs/2011.02235 (2020). arXiv:2011.02235 https://arxiv.org/abs/2011.02235

一种通过分析法证文物来检测恶意 JavaScript 和 Python 包的动态分析方法。

Marc Ohm, Arnold Sykosch, and Michael Meier. 2020. Towards Detection of Software Supply Chain Attacks by Forensic Artifacts. In Proceedings ofthe 15th International Conference on Availability, Reliability and Security (Virtual Event, Ireland) (ARES ’20). Association for Computing Machinery, New York, NY, USA, Article 65, 6 pages. https://doi.org/10.1145/3407023.3409183

一种基于静态和动态分析的管道，用于检测解释型语言（即 JavaScript、Python、Ruby）中的恶意包。

Ruian Duan, Omar Alrawi, Ranjita Pai Kasturi, Ryan Elder, Brendan Saltaformag- gio, and Wenke Lee. 2021. Towards Measuring Supply Chain Attacks on Package Managers for Interpreted Languages. In 28th Annual Network and Distributed System Security Symposium, NDSS. https://www.ndss-symposium.org/wp- content/uploads/ndss2021_1B-1_23055_paper.pdf

提出了可以从 Java 字节码中观察到的恶意行为指标

Piergiorgio Ladisa, Henrik Plate, Matias Martinez, Olivier Barais, and Serena Elisa Ponta. 2022. Towards the Detection of Malicious Java Packages. In Proceedings of the 2022 ACMWorkshop on Software Supply Chain Offensive Research and Ecosys- tem Defenses (Los Angeles, CA, USA) (SCORED’22). Association for Computing Machinery, New York, NY, USA, 63–72. https://doi.org/10.1145/3560835.3564548

采访了 PyPI 的管理员，以探索此类包仓库的安全目标，并创建了一个基准数据集来评估当前适用于 PyPI 的恶意软件检测工具（例如，Bandit4Mal、OSSGadget）。

Duc-Ly Vu, Zachary Newman, and John Speed Meyers. 2022. A Bench- mark Comparison of Python Malware Detection Approaches. arXiv preprint arXiv:2209.07957 (2022).

SoK: Taxonomy of Attacks on Open-Source Software Supply Chains

2023, Piergiorgio Ladisa, Henrik Plate, Matias Martinez, Olivier Barais, 2023 IEEE Symposium on Security and Privacy (SP)