邮件服务器-邮件系统-邮件技术论坛(BBS)

标题: 英雄难过此题关!Exchange疑难杂症请求组织救援!!! [打印本页]

作者: dustsailor    时间: 2007-12-4 16:04
标题: 英雄难过此题关!Exchange疑难杂症请求组织救援!!!
各位兄弟,我遇到一个非常蹊跷的难题,搞了很久还是一筹莫展,现到咱论坛上摆摊晒题寻求帮助,请求组织上给于关照和救援,恳请各位坛友充分发扬雷锋精神和国际人道主义精神,救我于水火,赐予我妙计。谢谢!

服务器环境:
操作系统:Windows 2003 enterprise server R2_english
Exchange:Exchange 2003 standard server_english + EX2003SP1+EX2003SP2
反垃圾邮件:Symantec Mail Security 5.0 for Microsoft Exchange

问题描述:给某域发邮件延迟甚至失败
详细描述:给国内外各ISP的邮箱收发邮件均正常并且速度较快。但给位于美国印第安纳的TELA公司发邮件非常慢,一封邮件常常延迟6,7个小时甚至20几个小时,邮件在队列中反复重发,直到退信。(下面有图示)

这台exchange 2003是我们最近新安装的,用它把老的exchange 2000 server换掉了。安装和配置Exchange我都很熟悉,必经也作了3年多的exchange管理员了。

TELA的邮件服务器也是exchange2003,操作系统和反垃圾邮件软件也都和我的一样。TELA公司最近新增加了一个硬件防火墙,但似乎并没影响exchange收发邮件,每天有大量的邮件正常进出,唯独来自我们的邮件不能发到。
我和tela的管理员讲过了,他也给我们的域名和IP都加入到白名单里了。

有一点令我感到怀疑的是:telnet "TELA Exchange Server IP" 25 后,欢迎信息是 220 ***********************,输入helo或ehelo等SMTP命令也都无法得到支持。

我曾怀疑问题是由此引起的,但用gmail,hotmail,163等给TELA发信都很快能发到,所以无法确定这个220 ********************的欢迎信息是否与问题有关。

我做了很多努力和尝试,但目前问题依旧。

下面是我的一些截图,请大家参考,看看能不能发现什么蛛丝马迹,拜托各位达人了。




[ 本帖最后由 dustsailor 于 2008-1-16 15:04 编辑 ]
作者: dustsailor    时间: 2007-12-4 16:11
在线等!~~~~~~~~~~~~~~~~~~~~~~~~~~~

[ 本帖最后由 dustsailor 于 2007-12-5 09:15 编辑 ]
作者: dustsailor    时间: 2007-12-4 16:11
上面的第二个图不太清楚,我再发个清晰点的


[ 本帖最后由 dustsailor 于 2007-12-5 09:16 编辑 ]
作者: dustsailor    时间: 2007-12-4 16:41
奇怪的是,不是每个发往tela的邮件都延迟,有的邮件就很快能发到,下面这是一个成功发送的日志跟踪截图。


[ 本帖最后由 dustsailor 于 2007-12-5 09:19 编辑 ]
作者: dustsailor    时间: 2007-12-4 17:56
英雄们,都进来坐坐吧。
作者: dustsailor    时间: 2007-12-5 09:20
昨天传上的图片有的显示不了,重新编辑了截图,有人来坐坐吗?没有好办法讨论讨论也好呀。
作者: jhonlone    时间: 2007-12-5 11:35
偶也碰到过,这个.......貌似跟你这边没关系
作者: pater    时间: 2007-12-5 16:47
像這種狀況,我覺得是在那一端。有過濾策略存在。。。不防從之方面想想。。。
作者: 钉子    时间: 2007-12-5 22:29
1。可以的话,你可以把对方实际的IP和域名公布或是知信发到我们的邮箱。我们在这边看是不是也是一样的。
2。对于延迟的情况。其实和线路质量和稳定性也有关。特别是在两个合作伙伴的服务器之前。因为有大量相互发送的邮件需要占用带宽。
作者: dainh    时间: 2007-12-5 22:35
对方加的硬件防火墙是PIX吗?如果是,可以考虑把PIX上的Mailguard关掉。具体参考:
http://support.microsoft.com/kb/295725/en-us

如果不是这个问题,在telnet测试的时候尝试请用 “ehlo <exchange_public_fqdn>”试试结果
作者: dustsailor    时间: 2007-12-6 15:59
原帖由 钉子 于 2007-12-5 22:29 发表
1。可以的话,你可以把对方实际的IP和域名公布或是知信发到我们的邮箱。我们在这边看是不是也是一样的。
2。对于延迟的情况。其实和线路质量和稳定性也有关。特别是在两个合作伙伴的服务器之前。因为有大量相互发送 ...


感谢楼上几位兄弟的热心帮助,谢谢!

钉子版主您好,出于安全要求和保护公司成员Email地址隐私考虑,我不便将相关信息和日志公布,我已经将详细信息发到您的邮箱里了,我最后会将问题的原因和解决方案反馈到论坛上供大家借鉴和参考。

线路质量和稳定性:
ping www.baidu.com -t 有丢包现象,大概每ping10-20次出现一次 request timed out
ping www.baidu.com -l 5000 -t 丢包现象加重,每5-20次出现一次 request timed out

联系我们大厦的网络中心负责人,经过2天折腾和检查,最终负责人说可能是因为端口限速的原因,现在将限速完全放开后:
ping www.baidu.com -t 基本无丢包现象,30分钟内只出现了一次request timed out
ping www.baidu.com -l 5000 -t  有少量丢包现象,每20次左右出现一次request timed out

不知道是不是和这个有关,但有个疑惑,我们有几个客户也在印第安纳,我们给那几个客户发邮件都没问题,包括带附件的大邮件,他们也是Exchange。给tela发小邮件一般都没问题,就是带附件的大邮件发送艰难,延迟甚至直到24小时退信。
也有可能是因为大的邮件传输过程较长,对网络稳定性要求高,在发送过程中网络有闪断导致发送中断,然后不断的重发。
作者: dustsailor    时间: 2007-12-6 16:19
我就纳闷了,同样是8M的邮件,给别的美国客户就能发到,发送要10几分钟,中间肯定有过闪断。但给TELA一发就成了蜀道难。对方都是EXCHANGE 2003,难道某些Exchange 2003会断点续传?我想SMTP传输邮件的过程中应该是可以适应微小的网络闪断情况。有没有啥办法可以跟踪数据包的传输或者TCP/IP的会话。
作者: dustsailor    时间: 2007-12-6 17:11
问题又出现了:图为一封滞留在queue中反复发送的邮件
注意:点中此队列可见到“the connection was dropped by remote host” ,说明什么?连接被对方中断?为什么要断我的连接?


邮件属性截图,传递失败了6次:


Message Tracking Center里的记录截图:


一段与此相关的SMTP日志:(为了保护敏感信息将相关IP尾数替换为X了,并适当编辑了发件人和收件人的邮件地址)
08:30:49 216.37.2x.x OutboundConnectionResponse SMTPSVC1 EX01 - 25 - - 220+******************************* 0 35 0 938 - -
08:30:49 216.37.2x.x OutboundConnectionCommand SMTPSVC1 EX01 - 25 EHLO - ex01.xxxbal.cn 0 4 0 938 - -
08:30:49 216.37.2x.x OutboundConnectionResponse SMTPSVC1 EX01 - 25 - - 250-barracuda.tela.com+Hello+ex01.xxxbal.cn+[218.240.12x.x],+pleased+to+meet+you 0 97 0 1484 - -
08:30:49 216.37.2x.x OutboundConnectionCommand SMTPSVC1 EX01 - 25 MAIL - FROM:<dsen@xxxbal.cn>+SIZE=10155264 0 4 0 1484 - -
08:30:50 216.37.2x.x OutboundConnectionResponse SMTPSVC1 EX01 - 25 - - 250+Ok 0 6 0 2031 - -
08:30:50 216.37.2x.x OutboundConnectionCommand SMTPSVC1 EX01 - 25 RCPT - TO:<turis@tela.com> 0 4 0 2031 - -
08:30:50 216.37.2x.x OutboundConnectionResponse SMTPSVC1 EX01 - 25 - - 250+Ok 0 6 0 2813 - -
08:30:50 216.37.2x.x OutboundConnectionCommand SMTPSVC1 EX01 - 25 DATA - - 0 4 0 2813 - -
08:30:51 209.85.146.176 wa-out-1112.google.com SMTPSVC1 EX01 192.168.1.50 0 QUIT - wa-out-1112.google.com 240 70 4 0 - -
08:30:51 216.37.2x.x OutboundConnectionResponse SMTPSVC1 EX01 - 25 - - 354+Start+mail+input;+end+with+<CRLF>.<CRLF> 0 44 0 3359 - -
作者: yale727    时间: 2007-12-7 09:15
我也遇到了这种问题,正在茫然中。现象和楼主的差不多,不同的就是对方是国内的,我的邮件服务器就只有往这个邮件服务器发送时总是重传,直至48小时后传递失败,基本就没成功过。队列中查看状看状态显示“信号灯超时时间已到”。但ping对方邮件服务器响应速度良好。很困惑。强烈关注此帖,希望能够得到大家的帮助,谢谢!

[ 本帖最后由 yale727 于 2007-12-7 09:21 编辑 ]
作者: aniuchen    时间: 2007-12-7 11:20
感觉还是对端服务器做了某些设置。过滤策略,或dns反向解析。现在国外iwei防止垃圾邮件,好多公司要求要做反向解析!
作者: dustsailor    时间: 2007-12-7 14:59
回楼上的兄弟,对端没有做这些设置,我也是对端公司管理员之一,实际上我们是TELA的子公司,我在对端将我们的IP/域名都加入了白名单。对端不要求反向解析。
感谢大家的热血帮助。谢谢!
作者: 钉子    时间: 2007-12-8 11:04
我在我客户的服务器上试着向你提供的joe的地址发邮件,都成功了。速度也非常的快。。我个人认为和网络质量和速度还是有关系的。不过我也只是猜测,具体情况你再分析一下。
作者: dustsailor    时间: 2007-12-20 11:47
我经过多日测试,现在网络质量已经很稳定了,ping到对方主机长时间没有丢包现象,我们的带宽扩增了,用来发几百K甚至几M大小的邮件应该不成问题。对方主机的带宽很好,因为TELA就是做印第安纳州网络接入业务的,相当于我们的某某省网通。
我再发一些截图信息,大家继续辛苦一下帮我看看,没准就能发现问题原因了。谢谢!
对方的TTL值为64,ping的TTL返回值为41或42,这里有点迷惑,怎么返回的TTL值还不一样呢,中间的路由数应该是固定的我想。(疑点1)
如图:

Tracert 到对方主机截图,这个图是经过了19跳到达,还有一次是经过20跳到达,但是因为中间都是request timed out,无法看到具体路由信息:


另外在应用程序日志里,看到有不少这样的错误,事件ID是7518:

作者: dustsailor    时间: 2007-12-20 11:49
如果需要测试,大家请发测试信到remoteit%telamon-corp.com ,请将%更换为@

[ 本帖最后由 dustsailor 于 2007-12-20 11:51 编辑 ]
作者: smollion    时间: 2007-12-20 11:54
我也有类似的问题, 发向某域名的邮件非常不顺利. 一直relay直到丢弃.

就这个问题microsoft已经有hotfix了,本周末我打下这个hotfix看看效果,呵呵
作者: 钉子    时间: 2007-12-20 12:21
标题: 回复 18楼 的帖子
另外在应用程序日志里,看到有不少这样的错误,事件ID是7518
这个问题请看:
http://www.5dmail.net/bbs/thread-168884-1-1.html
作者: 钉子    时间: 2007-12-20 12:22
标题: 回复 20楼 的帖子
是什么Hotfix ?KB号是多少?
作者: 钉子    时间: 2007-12-20 12:32
标题: 回复 18楼 的帖子
对方的TTL值为64,ping的TTL返回值为41或42,这里有点迷惑,怎么返回的TTL值还不一样呢,中间的路由数应该是固定的我想。(疑点1)
----- 我现在出差在广东省中山,使用中山电信的线路Ping 出来的TTL值是46,然后我登录到我使用广州电信线路的客户服务器上Ping也是46,Time值在460-510之间。你可以找多一些朋友,看他们得到的TTL值是否不一样,看是你自己的问题还是对方的问题。
作者: 钉子    时间: 2007-12-20 12:35
标题: 回复 18楼 的帖子
Tracert 到对方主机截图,这个图是经过了19跳到达,还有一次是经过20跳到达,但是因为中间都是request timed out,无法看到具体路由信息:
---我这结果也类似:
通过最多 30 个跃点跟踪
到 smtp.telamon.telamon-corp.com [216.37.24.94] 的路由:

  1     *        *        *     请求超时。
  2     *        *        *     请求超时。
  3     *        *        *     请求超时。
  4     *        *        *     请求超时。
  5     *        *        *     请求超时。
  6     *        *        *     请求超时。
  7     *        *        *     请求超时。
  8     *        *        *     请求超时。
  9     *        *        *     请求超时。
10     *        *        *     请求超时。
11     *        *        *     请求超时。
12     *        *        *     请求超时。
13     *        *        *     请求超时。
14     *        *        *     请求超时。
15     *        *        *     请求超时。
16     *        *        *     请求超时。
17     *        *        *     请求超时。
18     *        *        *     请求超时。
19     *        *        *     请求超时。
20   520 ms   523 ms   525 ms  smtp.telamon.telamon-corp.com [216.37.24.94]

跟踪完成。
作者: dustsailor    时间: 2008-1-16 15:02
感谢各位,最近终于成功的更换了internet接入线路,目前使用的是中国网通的线路了,以前是电信的(在此严重抗议一下电信和网通的办事效率)。
更换线路后,以上故障自动消失,EX服务器工作一切正常。
钉子到底是经验丰富,判断的很准,这个问题就是因为线路不稳定加上速度较差引起的。
之前我ping 过去的平均时长在800ms-900MS左右,丢包率约为3%。
目前ping 过去的平均时长为260ms左右,丢包率约为0% (已经是丢包极少,差不多是1千次丢2次,可以忽略)
看来要想让EX工作稳定,网络质量不能忽视。还有就是解决问题的思路:遵照OSI七层模型,自下向上的分析是比较合适的。我一开始误入了在应用层穷追不舍的歧途,浪费了很多时间和精力。
再次感谢大家!
结贴!
作者: 钉子    时间: 2008-1-17 00:51
恭喜dustsailor将问题解决了。据我了解也是中国网通的出口线路比电信好,也许是网通比电信有的人少一点吧。
作者: zzyyj    时间: 2008-2-28 09:40
我是网通的线路,出现了和LZ非常类似的问题。对方也是外资方总公司,唯独他们的邮件500K以上就先Delay然后被弹回...郁闷阿。由于路由器配置等等,控制权都不在我们本地,更换线路是一个工程浩大的项目...我考虑是不是发送找个中继了,大家有什么好的建议么?

PS:对方在新加坡,美国,欧洲有三个smtp接收点,为什么无论哪个点的邮件,都有同样的问题呢?我们线路质量虽然不算太好,但去别人的站点都也还凑或,唯独资方的域名...
作者: 钉子    时间: 2008-2-28 13:37
标题: 回复 27楼 的帖子
如果不能控制,建议使用中继。
作者: tdk    时间: 2008-3-10 15:41
收藏了
看来我们也面临扩带宽的问题




欢迎光临 邮件服务器-邮件系统-邮件技术论坛(BBS) (http://5dmail.net/bbs/) Powered by Discuz! X3.2