1. top命令和日志方式判定卡死的位置
python代码忽然卡死,日志不输出,通过如下方式可以确定线程确实已经死掉了:
# top 命令
top命令可以看到机器上所有线程的执行情况,%CPU和%MEM可以看出线程消耗的资源情况
由于机器上线程数量太多,可能要查看的线程的信息在top命令当前屏幕上显示不出来可以通过如下方式查看
在top命令下输入:u
接下来会提示输入用户名,就可以查看该用户所执行的所有线程
Which user (blank for all): denglinjie
这样就可以看到degnlinjie用户的所有线程
可以看到那几个卡死线程的%CPU和%MEM都为0,说明线程根本没有消耗资源,那么可以看出线程已经卡死了
接下来通过打日志的方式来确定线程究竟是卡死在哪里了,线程卡死的地方大多数都是在io或者http请求那,所以以后遇到线程卡死的情况,就通过打日志的方式来确定卡死的位置,最终定位到问题确实是一个http服务挂掉了,而且此时requests.get()我虽然设置了超时,但是竟然无效
2 . 服务进程数量不足导致的客户端进程卡死
服务端代码:
handler = SimilarityService()transport = TSocket.TServerSocket('10.134.113.75', 1234)factory = TBinaryProtocol.TBinaryProtocolFactory()processor = Processor(handler)server = TProcessPoolServer.TProcessPoolServer(processor, transport)server.setNumWorkers(10)server.serve()
客户端代码
docQue = queues.Queue(maxsize=1000)pCount = 15 class ParseSaveEsProcess(multiprocessing.Process): def __init__(self, threadId): self.threadId = threadId multiprocessing.Process.__init__(self) def run(self): global docQue f = open('recall_match_file_all_simi.lst.%s' % self.threadId, 'w') try: transport = TSocket.TSocket('10.134.113.75', 1234) transport = TTransport.TBufferedTransport(transport) protocol = TBinaryProtocol.TBinaryProtocol(transport) client = Client(protocol) transport.open() while True: line = docQue.get(block=True) if not line: print 'thread%d run over' % self.threadId break p = line.split('/t') if len(p) >= 6 and p[5] == 'simi_high': simi_str = client.calculate_similarity_by_itemurl(p[0]) f.write(line + '/t' + simi_str + '/n') else: f.write(line + '/n') transport.close() except Thrift.TException as e: print str(e) pass class PutUrlProcess(multiprocessing.Process): def __init__(self): multiprocessing.Process.__init__(self) def run(self): global docQue for line in open('recall_match_file.lst', 'r'): baikeid = line.strip() docQue.put(baikeid, block=True) for i in range(pCount): docQue.put(None, block=True) if __name__ == '__main__': putProcess = PutUrlProcess() putProcess.start() for i in range(pCount): parseProcess = ParseSaveEsProcess(i) parseProcess.start()
新闻热点
疑难解答