你的位置:首页 > Java教程

[Java教程]论线程池的粒度划分与深浅放置


摘要:多线程任务处理对提高性能很有帮助,在Java中提供的线程池也方便了对多线程任务的实现。使用它很简单,而如何正确地使用它,这个技能你get到没?

关键词:多线程, 线程池, 数据库, 算法

解决问题:如何正确使用线程池。



 

众所周知,线程池在Java中非常常用,使用它也是一项最基本的技能。不过怎样才能更合理、更方便地使用线程池,我们需要总结一下。

 
下面是线程池最基础的使用方式。
  1. ExecutorService jobPool =Executors.newFixedThreadPool(10);
  2. while(true){
  3. Job_anqi job_anqi =newGetData_anqi();
  4. job_anqi.setParm(parm);
  5. jobPool.submit(job_anqi);
  6. }

可以从以上代码看出,产生了很多个job,我们不想按顺序完成它们,它们之间也没有任何的关系,因此“分布式任务”、mapReduce?现在还太早,步子跨太大容易扯着蛋,先把单机的多任务给完成吧。所以,我们创建了一个线程池,在循环中,不断地把job填充进去,这个线程池不大,只能容纳10个线程同时跑,其它的线程放进去后就得老老实实地排队等待。

当然这里只是一个简单的Demo,虽然它包含了“向各线程传入参数”这样东西,更复杂的还有“在主线程中获取各线程结果的返回值”。
  1. ExecutorService executorService =Executors.newCachedThreadPool();
  2. List<Future<String>> resultList =newArrayList<Future<String>>();
  3. // 创建10个任务并执行
  4. for(int i =0; i <10; i++){
  5. // 使用ExecutorService执行Callable类型的任务,并将结果保存在future变量中
  6. Future<String> future = executorService.submit(newTaskWithResult(i));
  7. // 将任务执行结果存储到List中
  8. resultList.add(future);
  9. }
  10. executorService.shutdown();
  11. // 遍历任务的结果
  12. for(Future<String> fs : resultList){
  13. try{
  14. System.out.println(fs.get());// 打印各个线程(任务)执行的结果,其中会偶尔抛出异常
  15. }catch(InterruptedException e){
  16. e.printStackTrace();
  17. }catch(ExecutionException e){
  18. executorService.shutdownNow();//某一线程发生异常时,关闭线程池
  19. e.printStackTrace();
  20. return;
  21. }
  22. }

上面这段代码不仅用到了多线程取结果值的方法,还有另外的功能:在执行某一项job时,若其发生了异常,则会连带关闭其他运行在此线程池上的所有线程。这有时是很有用的。

 
到目前为止,以上讨论的还停留在线程池的使用方法上。然而,现在的问题不是如何使用线程池,那太low了不是。当前的问题是,如何控制job的深浅,如何决定job的深浅。当你有很多任务要放在线程池中时,他们可能有各种不同的组织形式,相对的也就有不同的实现办法。例如:1、线程们可以按天来划分,每天起一个线程,多少天就起多少个线程丢在里面;2、同时,线程们也可以按数据形式来划分,每一种数据形式起一个线程,有多少种数据形式就开多少个线程;3、再者,线程干脆按粒度来划分,我每一千个数据批次包装成一个线程,无论天、无论数据形式,只是每千条数据一个线程地跑;4、甚至,你可以线程池中套线程池,每天一个线程,再在每天的数据里对每种数据形式开一个线程,再在每种数据形式里每千条数据一个线程地跑。这就有很复杂的场景了。
 
那么该如何选择使用哪一种划分线程的方式呢?我们来慢慢分析。
方案3是最常会想起的划分线程池办法,此办法划分的线程粒度最细,线程池放置的位置最深,也最方便。当然从理论上来说方案3跟其他方案一样执行起来不会有问题,所有的任务执行完毕后能够与其他方案得到同样的结果。可是,一旦我们有特殊需求时,它是不实用的。如果,你需要打印日志或者记录程序执行状态,比如说我要按天记录该天任务执行的如何,那么选择使用方案1是非常合适的,如果性能还不行,还可以选择使用方案4。因为在方案1和方案4中都可以知道该天的任务何时执行完毕。若是使用方案2,则不清楚每天的任务执行情况,因此无法实现记录;使用方案3,因为它的线程池放置位置太深,更是无法实现按天记录。

 

要实现记录任务的执行状态,那就需要对线程池进行把控,不可能将所有的任务提交到线程池中就不管了。下面是最常见的监视线程池中所有的线程是否执行完毕的代码段。
  1. ExecutorService jobPool =Executors.newFixedThreadPool(10);
  2. while(true){
  3. Job_anqi job_anqi =newGetData_anqi();
  4. job_anqi.setParm(parm);
  5. jobPool.submit(job_anqi);
  6. }
  7. pool.shutdown();
  8. try{
  9. while(!jobPool.isTerminated()){
  10. Thread.sleep(1000);
  11. }
  12. }catch(InterruptedException e){
  13. e.printStackTrace();
  14. }
  15. logger.info("angel wang 做完了所有的工作, Good job!");

可以看到,把所有的job都提交完后,就要起个while循环来监听这个线程池,每隔一秒去问一下所有的线程是不是都跑完了。在得到肯定的答复后,就可以说,"angel wang 做完了所有的工作, Good job!"了。

 
综上所述,创建线程池的位置很重要,它直接决定了划分线程的粒度,而线程的粒度是需要你来把控的。
 
PS:java.sql.Connection是非线程安全的,各线程间不能对同一个Connection实例进行操作,不然对数据库的操作会乱掉。但也要注意,如果需要启动多线程对同一个数据库进行操作,每个线程要使用其自身创建的Connection实例来连接并操作数据库,如果不加限制的话,那么对该数据库建立的连接数会过多,导致建立连接不成功。因此,要么在数据库连接池中配置最多可以创建的连接数,要么控制创建出的线程个数,进行连接池配置要方便及容易许多。这也是数据库连接池如:Druid、DBCP、C3P0存在的意义之一。

 
最近换了城市,换了份工作,进入互联网公司,遇到了很多之前没有遇到过的问题,技术上的、管理上的、沟通上的......。体会下来,真是家家有本难念的经啊,无限烧脑中。但是兵来将挡水来土掩嘛,有什么问题解决什么问题。



来自王安琪