【雷池】功能配置-高危操作说明
操作原则
1.不做不熟悉逻辑、不清楚影响范围及没有在测试环境验证过的参数修改或打补丁操作;
2.任何和网络相关的操作都属于高危操作;
3.不做影响流量转发的高危操作;
4.慎做不影响流量转发但有高风险的操作;
5.涉及修改、删除、新增、重启、拷贝操作需要在客户知悉风险并同意的前提下操作。
管理界面通用部分
网站防护
自定义规则(新增、编辑、删除、导入操作)
功能说明
自定义规则是通过正则匹配或字符串匹配,判断HTTP请求或响应内容中是否存在对应特征,并可以执行拦截、记录、放行等动作。
风险说明
该功能配置过程中,可能会因为匹配规则问题导致拦截正常业务或生成过多日志(磁盘使用率过高)。
正确操作步骤
1.创建或编辑规则,设置观察模式(仅记录日志);
2.观察(至少几个小时),判断是否存在误报或日志量激增;
- 存在误报,修改匹配内容,继续观察;
- 日志量激增,重新评估策略合理性;
3.上线,按照实际使用需求修改模式。
回源 IP 配置
功能说明
反向代理模式下回源 IP 配置功能主要是用于解决:
1.大流量场景下雷池服务器单 IP 时源端口容易被耗尽问题;
2.Client—雷池—LB—WEB Server 架构,同时 LB 基于源 IP 会话保持(socket IP
)时雷池服务器单 IP 会造成 LB 会话保持功能失效问题。
风险说明
雷池到业务服务器之间可能有网络防火墙或主机防火墙策略,若使用的回源IP和业务服务器通信被防火墙拦截或路由不通,会造成个别客户端无法访问业务站点返回504。
正确操作步骤
1.确认以下两点没有问题再配置启用回源 IP:
- 确保雷池服务器网卡中有配置对应的回源 IP
- 在雷池上使用 curl 命令指定源IP进行测试,确保每个源 IP 都能 curl到业务服务器:
curl --interface 172.16.37.17 https://172.16.37.12 -H "host: www.example.com" #172.16.37.17为回源 IP
- 观察回源IP和业务服务器的tcp连接状态为:
ESTABLISHED
或 非长时间停留在其他状态。 - 【网站防护】的【访问站点管理】选择需要配置的站点,在【处理请求方式】的选项卡下编辑【回源 IP 配置】。
正常状态
[root@safeline17 minion]# netstat -nltpa | grep 172.16.37.17
tcp 0 0 172.16.37.17:80 172.16.37.12:37030 ESTABLISHED 93278/nginx: worker
回源IP 10.8.1.131与业务服务器路由不通状态
[root@safeline17 minion]# netstat -nltpa | grep 10.8.1.131
tcp 0 1 10.8.1.131:38954 172.16.37.12:80 SYN_SENT 93277/nginx: worker
[root@safeline17 minion]# netstat -nltpa | grep 10.8.1.131
tcp 0 1 10.8.1.131:38954 172.16.37.12:80 SYN_SENT 93277/nginx: worker
BOT 防护
功能说明
提供js挑战和验证码两种机制用于检测客户端是为BOT,并拦截该请求。
js挑战和验证码两种方式均需要客户端具备js执行能力,否则就会认为客户端是BOT并拦截(具备js执行能力不等于不是机器人,还会需要看进一步的检测结果)
风险说明
1.WAF防护的业务中的正常客户端可能会存在不具备js执行能力,如正常业务的API调用、手机APP(有些APP支持有些不支持,得客户确认),因此BOT防护配置不当可能会拦截正常业务。
2.瞬间CPS很大+记录BOT验证日志时可能会造成雷池IO过高影响操作。
正确操作步骤
1.跟客户说明BOT防护机制及风险,并让客户确认该业务的正常客户端是具备js执行能力才开启BOT防护功能;
2.配置验证特征需要采用最严格匹配原则,如匹配条件至少包含:host、解码后的路径。如有已知的API调用需要配置例外;
3.启用后需要观察[验证结果日志]和[负载状态]1周左右,确认没有明显的误拦截(把验证失败的日志给客户确认)以及在业务高峰期不会造成雷池负载过高。
4.如发现记录日志会造成雷池磁盘IO过高、管理界面操作慢问题,可以关闭日志记录。
cookie 防护
功能说明
风险说明
正确操作步骤
记录访问日志
功能说明
设置雷池是否记录正常流量日志,支持以下几种类型:
1.记录但不存储访问日志:记录访问信息在内存中,可用于访问频率控制、插件功能,但日志不会存储在数据库中,无法被筛选及展示;
2.记录并存储访问日志:访问信息会存储于数据库中,可以在日志列表中展示以及进行数据筛选;
3.不记录访问日志:不记录访问信息在内存及数据库,访问频率控制及插件功能会被影响。
风险说明
通常访问日志量较大,使得磁盘使用率过高,导致雷池服务端异常,非必要情况不应存储访问日志。
正确操作步骤
【网站防护】的【访问站点管理】选择需要配置的站点,在【处理请求方式】的选项卡下编辑【记录访问日志】。
用户识别
功能说明
风险说明
正确操作步骤
访问频率限制规则
功能说明
开启该功能,可以防CC攻击,支持以下几种类型:
1.限制满足条件的用户:达到触发条件之后执行限制动作
2.限制已知用户:只要IP/SESSION
匹配即可执行限制动作
风险说明
1.若客户端IP获取不准确,可能会导致雷池会封禁前端的CDN/反向代理的IP
,拦截正常业务请求
2.直接启用访问控制策略可能会导致对用户业务产生误拦截,一定不要直接开启拦截模式
正确操作步骤
1.设置策略之前,确保雷池所有业务站点攻击检测日志中的源IP为真实客户端IP
2.配置"限制已知用户
”策略:
1.需客户确认需要封禁的IP/SESSION
清单无误后添加策略
3.配置“限制满足条件的用户
”策略:
1.先启用多条不同梯度的访问控制策略,模式设置为观察模式
2.观察一段时间(通常为几天到1周)以及结合自己测试,可以分析出该URL 在某段时间内的访问峰值
3.依据上述分析得出的峰值进行设置触发限制条件阈值(通常要比正常峰值要高)
入侵检测开关
功能说明
关闭入侵检测将导致所有经由 WAF 的请求流量不再被检测。
风险说明
关闭会导致所有站点失去防护。
正确操作步骤
【网站防护】的【访问站点管理】直接关闭或开启【入侵检测开关】。
日志管理
日志归档(设置)
功能说明
1、雷池包含以下日志类型:攻击检测日志
、访问频率控制日志
、历史请求日志
、系统操作日志
、访问日志
、扩展插件日志
、历史节点数据
。
2、日志归档是将历史日志归档,避免数据量过大,导致日志查询缓慢。同时,安全运维人员可定期删除历史归档日志,降低磁盘使用率,避免因磁盘占用过高,导致程序异常。
3、如需要查询历史归档日志,可以选择恢复目标归档文件。
风险说明
雷池上线前必须根据日志生成速度设置日志归档时间,否则会导致日志查询速度降低,甚至服务端异常,安全运维人员需要定期已归档日志,保证磁盘使用率处于正常范围。
正确操作步骤
1.选择【日志管理】的【日志归档管理】功能;
2.选择待归档日志类型(攻击检测日志
、访问频率控制日志
、历史请求日志
、系统操作日志
、访问日志
、扩展插件日志
、历史节点数据
);
3.调整归档方式,选择归档时间范围;
4.归档设置生效时间。
攻击日志(下载、删除)
功能说明
风险说明
正确操作步骤
系统设置
配置备份还原
功能说明
风险说明
正确操作步骤
系统时间设置
功能说明
WAF 系统时间设置。
风险说明
修改 WAF 系统时间可能会导致服务端异常,该功能应下线操作。
正确操作步骤
1.WAF 下线(切走生产流量);
2.确认无任何流量;
3.选择【系统设置】中【其他系统设置】,编辑【系统时间设置】修改时间;
4.测试并验证 WAF 各项功能是否正常。
数据重置设置
功能说明
WAF 支持重置以下数据:用户
、站点及相关策略
、攻击检测日志
、访问日志
、访问统计日志
、报告结果
等。
风险说明
WAF 数据重置属于高风险操作,如必须重置,应下线操作。
正确操作步骤
1.WAF 下线(切走生产流量);
2.确认无任何流量;
3.选择【系统设置】中【其他系统设置】,编辑【数据重置】,选择需要重置的数据类型;
4.测试并验证 WAF 各项功能是否正常。
固件升级
功能说明
固件升级更新 WAF 检测引擎,确保 WAF 使用最新的检测算法。
风险说明
由于引擎算法更新,可能会导致产生新的误报,需开启观察模式判断是否存在误报。
正确操作步骤
1.设置 WAF 的策略为 观察模式
;
2.选择【系统信息】的【系统固件信息】,上传最新的固件引擎;
3.观察日志,判断是否存在误报,若存在则需调整策略;
4.若不存在误报,则恢复 WAF 拦截模式;
Shell操作
软件部署模式通用
- 以下操作行为会造成流量中断,严格禁止带流量操作,需要在把流量切走后进行操作,并离线验证没有问题后再切流量经过WAF:
1.修改服务器网络参数,包括修改网络参数(IP
、子网掩码
、网关
、DNS
、路由
)、up/down网卡;
2.停止、重启iptables
服务,修改iptables
规则;
3.停止、重启minion
服务;
4.停止、重启docker
服务;
5.停止、删除、重启tengine
、detector-srv
容器以及容器内的进程服务;
6.重启、关闭服务器; - 以下操作行为属于高危操作,务必在测试环境测试过不会影响雷池的运行后再到客户环境操作:
1.删除、清空、移动、修改文件操作:包括系统上所有文件,特别是雷池的安装目录中的文件;
2.数据库操作:查询操作不会造成磁盘IO阻塞(万一发生IO阻塞,会造成无法访问管理界面)、修改及删除操作不会影响雷池运行;
3.停止、容器以下无法的风险如下,需跟客户说明风险并客户同意的前提下再操作: - 1).mario-aggregator:日志丢失、插件失效
- 2).mario-collector:日志丢失、插件失效
- 3).mario:日志丢失、插件失效
- 4).mgt-api:管理界面无法访问、API调用失败
- 5).mgt-es:日志丢失、管理界面无法访问
- 6).mgt-redis:实时统计类数据丢失、管理界面无法访问
- 7).mgt-postgres:日志丢失、管理界面无法访问
硬件部署模式通用
- 以下操作行为会造成流量中断,严格禁止带流量操作,需要在把流量切走后进行操作,并离线验证没有问题后再切流量经过WAF:
1.修改服务器网络参数,包括修改mgmt除外网络参数(IP、子网掩码、网关、DNS、路由)、up/down网卡;
2.停止、重启iptables服务,修改iptables规则;
3.停止、重启minion服务;
4.停止、重启docker服务;
5.停止、删除、重启tengine、detector-srv、ripley-xxx容器以及容器内的进程服务;
6.重启、关闭服务器
1.如远程重启服务器,需要确保万一重开机失败能第一时间进入机房处理。
7.修改运行模式(mode reset); - 以下操作行为属于高危操作,务必在测试环境测试过不会影响雷池的运行后再到客户环境操作:
1.删除、清空、移动、修改文件操作:包括系统上所有文件,特别是雷池的安装目录中的文件;
2.数据库操作:查询、修改及删除操作。PS:查询或统计的的数据量太大会造成磁盘IO阻塞从而影响其他服务正常运行。
3.停止、容器以下无法的风险如下,需跟客户说明风险并客户同意的前提下再操作: - 1).mario-aggregator:日志丢失、插件失效
- 2).mario-collector:日志丢失、插件失效
- 3).mario:日志丢失、插件失效
- 4).mgt-api:管理界面无法访问、API调用失败
- 5).mgt-es:日志丢失、管理界面无法访问
- 6).mgt-redis:实时统计类数据丢失、管理界面无法访问
- 7).mgt-postgres:日志丢失、管理界面无法访问
4.透明代理及透明桥模式下,切换Bypass
状态切换后,第一时间通过访问业务、查看[系统信息]-[网络状态]中实时流量、模拟攻击日志是否会产生攻击日志等手段确保流量符合预期后再做其他变更操作,避免Bypass
切换不生效直接做其他高危操作引发生产事故。
部署模式
反向代理(软件)
站点管理(编辑、删除、禁用、启用)
功能说明
反向代理模式,防护站点配置决定雷池接收哪些流量(端口、域名、协议
)、如何处理接收到的流量(响应方式)及其他相关参数配置。
风险说明
如生产环境中带流量禁用站点、修改关键参数(端口、域名、协议及响应方式
)可能会导致业务流量中断。
正确操作步骤
1.禁用/删除站点操作
:雷池的前端设备(防火墙、LB)修改配置把该站点的流量切走后再操作;
2.启用站点
:雷池的前端设备(防火墙、LB)切换流量到雷池之前,先通过浏览器/curl等方式访问雷池IP:Port,确保响应符合预期后再切流量。
3.编辑站点
:由于参数较多,此处不一一列举,涉及高危操作部分已在上述中单独说明,如需修改其他参数时必须告知客户风险并得到同意后进行操作。
嵌入式代理(软件)
反向代理(硬件)
网络管理
透明代理(硬件)
网络管理
mgmt接口IP(新增、删除)
功能说明
用于新增、删除雷池管理IP
风险说明
如参数配置不正确,会导致无法远程管理雷池,甚至导致客户网络IP冲突
正确操作步骤
1.添加:添加IP类型为【真实IP】,需要确认IP及子网掩码无误后再点保存,且测试使用新的IP能访问到雷池后,再删除旧IP(务必删除多余的IP,包括雷池默认的管理IP 192.168.1.1, 否则会有引起客户网络IP冲突的风险);
2.删除:删除多余的IP后,需要测试确保使用其他IP访问到雷池。
虚拟机接口-链路聚合(新增、删除)
功能说明
用于配置雷池多个物理端口虚拟成一个逻辑端口和上下游设备通信,上下游设备也必须配置链路聚合(也叫端口聚合、port-channel)才能正常工作;
风险说明
链路聚合属于数据链路层协议,新增、删除操作都会影响网络流量的处理(网络中断),因此禁止带流量操作链路聚合虚拟接口;
正确操作步骤
1.确认当前设备没有流量后再做新增、删除操作,注意:一定要把流量切走,不要使用硬件Bypass
模式
2.配置参数时注意
- 1).物理网卡相邻的2个端口为一组
Bypass
,如eth1.1和eth1.2为一组Bypass
、eth1.3和eth1.4为一组Bypass
,网络接线及配置端口聚合时,需要保证雷池网卡切换到Bypass
模式时流量可以正常通行; - 2).高级选项参数:透明代理模式下比较常用模式的是
balance-xor、802.3ad(lacp)
,当上下游设备的链路聚合配置为静态聚合时使用balance-xor
,配置为动态聚合时使用802.3ad(lacp
),XmitHashPolicy
使用layer2+3
可以让流量更加均衡。其他模式在透明代理模式下比较少用到。 - 3).需要配置好工作组来以决定链路聚合接口的流量如何转发,否则流量会中断。
3.切流量之前需要客户在雷池上下游设备查看聚合口协商成功、网络连通性没有问题后再切流量经过雷池。链路聚合配置示意图如下:
虚拟机接口-VLAN接口(新增、删除)
功能说明
为了能让雷池能代理和检测到带VLAN TAG
的流量
风险说明
链路聚合属于数据链路层协议,新增、删除操作都会影响网络流量的处理(网络中断),因此禁止带流量操作链路聚合虚拟接口;
正确操作步骤
1.确认当前设备没有流量后再做新增、删除操作,可以切换到硬件Bypass
模式后进行操作;
2.配置注意事项:
- 1).同一个工作组的
IN、OUT
口的VLAN子接口
的VLAN ID
必须一致,否则该VLAN的流量会中断; - 2).存在链路聚合的场景,
VLAN接口
的父接口
为链路聚合接口
;
工作组管理-工作组(新增、删除)
功能说明
用于配置网桥(决定哪个口进来的流量从哪个口出去)、以及HA
数据口同步使用哪个网络接口。
风险说明
新增、删除工作都会影响网络流量的处理(网络中断),因此禁止带流量操作操作工作组;
正确操作步骤
1.确认当前设备没有流量后再做新增、删除操作,可以切换到硬件Bypass
模式后进行操作;
2.配置注意事项:
- 1).工作中的
IN、OUT
口必须跟物理连线一致,否则流量转发错误会造成流量中断; - 2).存在
VLAN子接口
的场景,不能只配置VLAN子接口
的工作组
,还必须配置一个IN、OUT
口为物理接口(链路聚合场景时,物理接口指链路聚合口)的工作组兜底,用于无VLAN TAG
或其他VLAN TAG
的网络流量过网桥,否则这部分流量直接中断。
工作组管理-工作组 Bypass 阈值配置
功能说明
用于配置自动触发软件Bypass
的阈值。
说明:软件Bypass是指流量会经过操作系统网桥,原来配置在防护站点中的IP:port流量不会被雷池代理和检测。硬件Bypass
是指网卡Bypass
,流量直接只经过网卡不经过系统网桥。
风险说明
透明代理下的Bypass切换会导致:所有客户端访 和 防护站点中的IP:port的TCP连接断开重连(重新进行三次握手),业务高峰Bypass切换会可能导致客户端交易中断一下(客户端通常会有TCP重连机制)、以及后端业务WEB 服务器的CPS瞬间变高可能触发性能瓶颈问题。
正确操作步骤
1.非必要情况下无需配置工作组 Bypass 阈值配置;
2.如因为业务场景确实需要配置,需要提前跟客户说明风险并同意的前提下进行合理配置。
路由管理-网关管理(新增、删除)
功能说明
用于配置雷池的默认网关
风险说明
如参数配置不正确,会导致无法远程管理雷池
正确操作步骤
1.添加:需要确认网关IP无误后再点保存;
2.删除:需要保证不配置默认网关也不会影响管理员访问雷池后再删除。
网站防护
防护站点管理(添加、编辑、删除、禁用、启用)
功能说明
透明代理模式下,防护站点的配置决定雷池会代理哪些IP:Port的连接,及其他相关参数配置。
风险说明
如生产环境中带流量禁用/启用站点、修改关键参数(IP、Port)会触发客户端TCP重连(重新进行三次握手);
若配置的IP:Port的流量不是非标准HTTP/HTTPS流量时会造成业务中断。如Exchange Server的443端口就是RPC Over HTTP或MAPI over HTTP,添加的到雷池的防护站点时就会造成Outlook客户端无法连接到Exchange Server。
正确操作步骤
1.在非业业务高峰期、客户同意的前提进行操作,若紧急情况下,在业务高峰期需要操作,需要告知客户风险并在客户同意的前提下进行操作;
2.新增或修改站点中IP:Port时,需要保证该IP:Port为标准的HTTP/HTTPS流量,如客户也无法确定时,可以通过抓包用wireshark初步判断是否有明显的非HTTP/HTTPS数据包,当然如果IP:Port实在太多无法一个个抓包时,必须要跟客户说明风险并在客户同意的前提下再操作;
3.新增的站点需要采用观察模式观察一段时间,经过日志分析和消除误报环节,确定不存在误报后启用拦截模式。
Shell操作
bypass
功能说明
bypass enter #切换到Bypass状态
bypass leave #切换到非Bypass状态
bypass status #查看当前Bypass状态
风险说明
透明代理模式下,切换Bypass模式时会触发客户端TCP重连(重新进行三次握手);
正确操作步骤
1.须告知客户风险并在客户的同意下操作;
2.非紧急情况下,应在业务非高峰期操作;
3.从非Bypass状态 切换到 Bypass 状态后,须第一时间测试保证业务流量可以正常通过,且查看[系统信息]-[网络状态]中实时流量为0或接近0后再做其他操作。反之亦然,从Bypass状态 切换到 非Bypass 状态后测试保证业务流量可以正常通过,且模拟攻击会产生攻击日志再做其他操作。避免Bypass切换不生效直接做其他高危操作引发生产事故。
透明桥(硬件)
网络管理
mgmt接口IP(新增、删除)
功能说明
用于新增、删除雷池管理IP
风险说明
如参数配置不正确,会导致无法远程管理雷池,甚至导致客户网络IP冲突
正确操作步骤
1.添加:添加IP类型为[真实IP],需要确认IP及子网掩码无误后再点保存,且测试使用新的IP能访问到雷池后,再删除旧IP(务必删除多余的IP,包括雷池默认的管理IP 192.168.1.1, 否则会有引起客户网络IP冲突的风险);
2.删除:删除多余的IP后,需要测试确保使用其他IP访问到雷池。
虚拟机接口-链路聚合(新增、删除)
透明桥部署时,无需配置链路聚合;
如雷池上下游设备有做链路聚合时,配置工作组多进多出即可。
虚拟机接口-VLAN接口(新增、删除)
透明桥部署时,无需配置Vlan子接口也能检测到带VLAN TAG的HTTP流量。
工作组管理-工作组(新增、删除)
功能说明
用于配置网桥(决定哪个口进来的流量从哪个口出去)、以及HA数据口同步使用哪个网络接口。
风险说明
新增、删除工作都会影响网络流量的处理(网络中断),因此禁止带流量操作操作工作组;
正确操作步骤
1.确认当前设备没有流量后再做新增、删除操作,可以切换到硬件Bypass模式后进行操作;
2.配置注意事项:
1.工作中的IN、OUT口必须跟物理连线一致,否则流量转发错误会造成流量中断;
路由管理-网关管理(新增、删除)
功能说明
用于配置雷池的默认网关
风险说明
如参数配置不正确,会导致无法远程管理雷池
正确操作步骤
1.添加:需要确认网关IP无误后再点保存;
2.删除:需要保证不配置默认网关也不会影响管理员访问雷池后再删除。
网络测试工具-tcpdump
功能说明
用于DPDK转发模式下kni接口的抓包调试
风险说明
tcpdump -i
指定某个kni端口抓包,会影响网络流量的处理(网络中断),因此禁止该操作
正确操作步骤
ncenter
进入容器的网络空间
2.
onsenter -n -t `docker inspect -f {{.State.Pid}} ripley-xxx`
3.启动工作组接口对应的kni接口
oifconfig k_ethx.x up
4.tcpdump指定任意接口抓包
otcpdump -i any -...
网站防护
防护站点管理(添加、编辑、删除、禁用、启用)
功能说明
透明桥模式下,无需配置站点就会使用[默认防护策略]对所有HTTP流量进行检测和拦截,防护站点仅是配置什么样(IP:Port、域名)的流量采用什么样的防护策略组。
风险说明
对站点进行操作时可能会造成对应流量的攻击请求处理行为发生改变。如:原配置一个域名为*的站点防护策略为[观察模式],新增一个1.1.1.1:80的站点的防护模式默认为[默认防护防护策略],则可能会引起1.1.1.1:80业务的误拦截。
正确操作步骤
1.初次上线时,新建一个域名为*的站点防护策略为[观察模式];
2.新增其他防护站点配置拦截模式之前,需要对该站点的日志进行分析和消除误报,确保该站点没有误报后再添加站点。
旁路镜像(硬件)
网络管理
网络测试工具-tcpdump
同透明桥(硬件)→ 网络测试工具-tcpdump