点击此处---> 群内免费提供SAP练习系统(在群公告中)
加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)
尊敬的SAP社区
今天,我们的生产性HANA数据库在上午9:00左右关闭。 检查日志daemon_macro-prd-bd.30000.000.trc,我们发现以下错误:
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.617882 e守护进程TrexDaemon.cpp(03876):文件/usr/sap/HMP/HDB00/macro中的Pid 0 -prd-bd/lock/hdbdaemon@30000.pid与预期的68919不同,正在停止实例
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.891287 i Daemon守护程序 .cpp(00965):注释文件包含:
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.914195 i Daemon TrexDaemon.cpp(03663):关机事件( 停)。 运行级别5。将子级级别提升到0的子级
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.915581 i Daemon Daemon.cpp(00850):从当前运行级别5切换到 0,未计划任何事件
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.919088 i Daemon Daemon.cpp(00901):运行级别5中的所有实例已停止
同一事件发生在星期四,也发生在12月,同样的错误也屡屡发生,当时我们应用了SAP注释" 2551708-HANA系统带有" pid 与预期的"错误" 不同,该错误表示该错误是由于某人或某些操作系统级别的工具从路径/usr中的" hdbdaemon@XXXXX.pid"守护进程删除了锁定文件而引起的/sap/HMP/HDB00/macro-prd-bd/lock/。SAP提到这种情况下的常见罪魁祸首是服务器上安装的防病毒软件。
根据此SAP注释的要求,我们已经排除在外 从防病毒扫描中删除HANA文件系统,以便不再对其进行监视:
/usr/sap/HMP
/hana/shared
/hana/data
/hana/log
我们激活了服务器审核日志,以识别谁或什么删除了文件,还更改了root和sidadm用户的密码。
问题是现在出现同样的错误,导致操作系统审核 日志中没有标识删除原因的记录。
这是一个令人担忧的问题,因为我们不知道HANA DB再次因此问题而关闭的确切时间。
我们在一台服务器上有我们的Productive Hana 2.0 SP03数据库,而我们的Productive SAP系统是另一台服务器上的S/4 HANA 1709系统。 这是一个分布式安装。
我们的质量和开发S/4 Hana系统分别位于两台服务器中,其中一台装有SAP应用程序和数据库。 这些系统的服务器中还安装了防病毒软件,并且这里没有发生HANA DB关闭问题。
我们的Hana数据库安装了2.00.030.00.1522209842版本。
我们所有的系统都安装在SUSE Linux Enterprise Server 12.3服务器上,并托管在云基础架构中,硬件制造商是VMware。
这是发生错误时daemon_macro-prd-bd.30000.000.trc文件的一部分:
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.617882 e守护进程TrexDaemon.cpp(03876):文件/usr/sap/HMP/HDB00/macro中的Pid 0 -prd-bd/lock/hdbdaemon@30000.pid与预期的68919不同,正在停止实例
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.891287 i Daemon守护程序 .cpp(00965):注释文件包含:
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.914195 i Daemon TrexDaemon.cpp(03663):关机事件( 停)。 运行级别5。将子级级别提升到0的子级
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.915581 i Daemon Daemon.cpp(00850):从当前运行级别5切换到 0,未计划任何事件
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.919088 i Daemon Daemon.cpp(00901):运行级别5中的所有实例已停止
[68919] {-1} [-1/-1] 2020-01-11 08:55:15.919097 i守护进程RunningInstance.cpp(00315):停止进程" hdbwebdispatcher",pid 70884
[68919] {-1 } [-1/-1] 2020-01-11 08:55:15.933510 i Daemon TrexDaemon.cpp(02610):pid为70884(70884)的已终止孩子
[68919] {-1} [-1/- 1] 2020-01-11 08:55:15.933542 i Daemon Events.cpp(00096):" KillInstanceEvent"到期时间为299985毫秒。 程序" hdbwebdispatcher",pid 70884
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.368360 i Daemon TrexDaemon.cpp(03947):实例计数6.搜索终止 进程
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.372064 i Daemon TrexDaemon.cpp(04108):进程" hdbcompileserver",pid 69448仍然有效
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.372109 i Daemon TrexDaemon.cpp(04108):进程" hdbindexserver",pid 69495仍然有效
[68919] { -1} [-1/-1] 2020-01-11 08:55:34.372127 i Daemon TrexDaemon.cpp(04108):进程" hdbnameserver",pid 68939仍然有效
[68919] {-1} [ -1/-1] 2020-01-11 08:55:34.372143 i Daemon TrexDaemon.cpp(04108):进程" hdbpreprocessor",pid 69450仍然有效
[68919] {-1} [-1/- 1] 2020-01-11 08:55:34.372529 i Daemon TrexDaemon.cpp(03968):进程" hdbwebdispatcher",pid 70884正常退出,状态为0
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.375230 i Daemon TrexDaemon.cpp(04063):找到程序" webdispatcher"的停止实例0,删除了 参考
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.375890 i Daemon TrexDaemon.cpp(04088):运行级别4中的所有实例均已停止
[68919] { -1} [-1/-1] 2020-01-11 08:55:34.375901 i Daemon Daemon.cpp(00850):从当前运行级别3切换为0; 下一个事件"检查"到期时间为11724 ms
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.375910 i守护程序RunningInstance.cpp(00315):停止进程" hdbindexserver" ,pid 69495
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.376194 i Daemon TrexDaemon.cpp(02610):pid为69495(69495)的已终止孩子
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.376201 i Daemon Events.cpp(00096):" KillInstanceEvent"到期时间为299999 ms。 程序" hdbindexserver",PID 69495
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.376207 i Daemon RunningInstance.cpp(00315):停止进程" hdbxsengine",PID 69497
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.376328 i Daemon TrexDaemon.cpp(02610):pid为69497(69497)的已终止孩子
[68919] ] {-1} [-1/-1] 2020-01-11 08:55:34.376335 i Daemon Events.cpp(00096):" KillInstanceEvent"的发布日期为299999 ms。 程序" hdbxsengine",pid 69497
[68919] {-1} [-1/-1] 2020-01-11 08:55:34.376371 i Daemon TrexDaemon.cpp(04108):进程" hdbxsengine",pid 69497 仍然存活
[68919] {-1} [-1/-1] 2020-01-11 08:57:23.259043 i Daemon TrexDaemon.cpp(03947):实例计数5.搜索终止的进程
[68919] {-1} [-1/-1] 2020-01-11 08:57:23.259248 i Daemon TrexDaemon.cpp(04108):进程" hdbcompileserver",pid 69448仍然有效
[68919] { -1} [-1/-1] 2020-01-11 08:57:23.259269 i Daemon TrexDaemon.cpp(04108):进程" hdbindexserver",pid 69495仍然有效
[68919] {-1} [ -1/-1] 2020-01-11 08:57:23.259278 i Daemon TrexDaemon.cpp(04108):进程" hdbnameserver",pid 68939仍然有效
[68919] {-1} [-1/- 1] 2020-01-11 08:57:23.259296 i Daemon TrexDaemon.cpp(04108):进程" hdbpreprocessor",pid 69450仍然有效
[68919] {-1} [-1/-1] 2020- 01-11 08:57:23.260524 i Daemon TrexDaemon.cpp(03968):进程" hdbxsengine",pid 69497正常退出,状态为0
[68919] {-1} [-1/-1] 2 020-01-11 08:57:23.260693 i Daemon TrexDaemon.cpp(04063):找到程序" xsengine.HMP"的已停止实例7,删除了引用
[68919] {-1} [-1/-1] 2020-01-11 08:57:23.260709 i Daemon TrexDaemon.cpp(04079):程序" indexserver.HMP"具有运行级别3和1实例
[68919] {-1} [-1/-1] 2020- 01-11 09:00:34.397880 i守护程序RunningInstance.cpp(00335):终止进程" hdbindexserver",pid 69495
[68919] {-1} [-1/-1] 2020-01-11 09:00 :34.478297 i Daemon TrexDaemon.cpp(02632):被杀死的孩子有pid 69495(69495)
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.002761我的Daemon TrexDaemon。 cpp(03947):实例计数4.搜索终止的进程
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.003525 i Daemon TrexDaemon.cpp(04108):进程 " hdbcompileserver",pid 69448仍然有效
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.016582 i Daemon TrexDaemon.cpp(03979):进程" hdbindexserver", pid 69495退出,因为它捕获到信号9
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.016820 i Daemon TrexD aemon.cpp(04063):找到程序" indexserver.HMP"的已停止实例3,删除了引用
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.016833 i守护程序 TrexDaemon.cpp(04088):运行级别3中的所有实例已停止
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.016850 i Daemon Daemon.cpp(00850):切换 从当前运行级别2到0; 下一个事件"检查"将于23285毫秒内到期
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.016864 i守护程序RunningInstance.cpp(00315):停止进程" hdbcompileserver" ,pid 69448
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017045 i Daemon TrexDaemon.cpp(02610):已停止使用pid 69448(69448)的孩子
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017050 i Daemon Events.cpp(00096):" KillInstanceEvent"的发布日期为299999 ms。 程序" hdbcompileserver",PID 69448
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017054 i守护程序RunningInstance.cpp(00315):停止进程" hdbpreprocessor",PID 69450
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017136 i Daemon TrexDaemon.cpp(02610):pid为69450(69450)的已终止孩子
[68919] ] {-1} [-1/-1] 2020-01-11 09:09:35.017139 i Daemon Events.cpp(00096):" KillInstanceEvent"的发布日期为299999 ms。 程序" hdbpreprocessor",pid 69450
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017168 i Daemon TrexDaemon.cpp(04108):进程" hdbnameserver",pid 68939 仍然存活
[68919] {-1} [-1/-1] 2020-01-11 09:09:35.017179 i守护程序TrexDaemon.cpp(04108):进程" hdbpreprocessor",pid 69450仍然存活< br> [68919] {-1} [-1/-1] 2020-01-11 09:09:44.191378 i Daemon TrexDaemon.cpp(03947):实例计数3.搜索终止的进程
[68919] { -1} [-1/-1] 2020-01-11 09:09:44.194593 i Daemon TrexDaemon.cpp(03968):进程" hdbcompileserver",pid 69448正常退出,状态为0
[68919] {-1 } [-1/-1] 2020-01-11 09:09:44.194816 i Daemon TrexDaemon.cpp(04063):发现程序" compileserver"的停止实例0,删除了引用
[68919] {-1} [ -1/-1] 2020-01-11 09:09:44.194831 i Daemon TrexDaemon.cpp(04079):程序"预处理器"具有运行级别2和1实例
[68919] {-1} [-1/- 1] 2020-01-11 09:09:44.195658 i Daemon TrexDaemon.cpp(04108):进程" hdbnameserver",pid 68939是st 生病的人
[68919] {-1} [-1/-1] 2020-01-11 09:09:44.195702 i Daemon TrexDaemon.cpp(04108):进程" hdbpreprocessor",pid 69450仍然活着
[68919] {-1} [-1/-1] 2020-01-11 09:10:08.853652 i Daemon TrexDaemon.cpp(03947):实例数2。搜索终止的进程
[68919] {- 1} [-1/-1] 2020-01-11 09:10:08.853748 i Daemon TrexDaemon.cpp(04108):进程" hdbnameserver",pid 68939仍然有效
[68919] {-1} [- 1/-1] 2020-01-11 09:10:08.856859 i Daemon TrexDaemon.cpp(03968):进程" hdbpreprocessor",pid 69450正常退出,状态为0
[68919] {-1} [-1/-1] 2020-01-11 09:10:08.857092 i Daemon TrexDaemon.cpp(04063):找到程序"预处理器"的停止实例0,删除了引用
[68919] {-1} [-1/-1 ] 2020-01-11 09:10:08.857106 i Daemon TrexDaemon.cpp(04088):运行级别2中的所有实例已停止
[68919] {-1} [-1/-1] 2020-01-11 09: 10:08.857109 i Daemon Daemon.cpp(00850):从当前运行级别1切换为0; 下一次事件"检查"应在19471毫秒内完成
[68919] {-1} [-1/-1] 2020-01-11 09:10:08.857116 i守护程序RunningInstance.cpp(00315):停止进程" hdbnameserver" ,pid 68939
[68919] {-1} [-1/-1] 2020-01-11 09:10:08.857323 i Daemon TrexDaemon.cpp(02610):pid为69939(68939)的已终止孩子
[68919] {-1} [-1/-1] 2020-01-11 09:10:08.857330 i Daemon Events.cpp(00096):" KillInstanceEvent"到期时间为300000 ms。 程序" hdbnameserver",pid 68939
[68919] {-1} [-1/-1] 2020-01-11 09:13:35.132917 i Daemon NetworkListener.cpp(01223):从127.0.0.1接受新连接/40768_tcp通过套接字11
请提出任何建议。
问候。
好的,至少我们已经排除了对该文件的更改。 无论如何,这些始终是最难追踪的……
您是否尝试过完全禁用病毒扫描程序? 我想知道这是否仍在文件上并导致读取错误。
相对于PID文件,OS日志(甚至病毒扫描日志)中是否存在任何警告或错误? (s)?
马克
嗨马克,
禁用Sophos AV是解决方案,正如您所知,它仍在踩文件并引起问题。
感谢您的帮助!。
此致。
您看过此SAP注释吗?
SAP注释2551708
这是个好消息!
您已经验证了 文件没有被删除或更改? 还是被删除了? 不清楚。 如果审计徽标没有显示任何内容,我会请操作系统工程师参与其中。
嗨,马克,
今天我们遇到了同样的问题,文件没有被更改或删除,这就是为什么审核日志中没有记录任何内容。
这是daemon.trc文件和daemon pid锁定文件的一些图片。
该错误表明文件/usr/sap/HMP/HDB00/macro-prd-bd/lock/hdbdaemon@30000.pid中的PID 0与预期的" 13198"不同,因此HANA数据库已关闭。/p>
自1月11日由于同一问题重新启动系统以来,hdbdaemon @ 30000.pid文件没有得到编辑(如上图所示)。
hdbdaemon@30000.pid文件中的内容为0000013198,这很奇怪,因为daemon.trc文件中的错误提到该数字不在PID文件中。
注意。
还...您是否检查过PID锁定文件打开了哪些进程? 您可以使用'lsof'来完成此操作。
从上面的命令和输出中,重要的是FD列。 它分为三个部分。 第一个(数字)是打开文件的进程的文件描述符(在我的示例中为hdb.sapHD)。 第二和第三位数字描述了它如何打开。 有关详细信息,请参见下文(或man lsof)。
我的系统显示文件hdb.sapHD作为文件描述符6打开了文件,并打开以进行写访问(w)。
标记
一周热门 更多>