一.引言
使用 Flink - Kafka 接数据 Source 时程序报错:
org.apache.flink.runtime.JobException: Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy
任务每次启动后持续10min左右,然后 RUNNING -> FAILED,如此重启失败了多次。
二.问题现象
1.任务 URL 界面
对应任务界面可以看到有一个 Source 的 3 个 Task 在任务启动的时间内一直处于 INITIALIZING 状态,直到任务结束。
2.yarn 界面
上述报错情况下 yarn 界面如下,任务重启后大约 7min 失败
三.问题分析与解决
1.Source 持续 INITIALIZING 与 周期性 Failed
查看异常栈日志: