hadoop下Illegalpartitionfor问题怎么处理

这篇文章主要介绍“hadoop下Illegal partition for问题怎么处理”，在日常操作中，相信很多人在hadoop下Illegal partition for问题怎么处理问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”hadoop下Illegal partition for问题怎么处理”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

成都创新互联公司长期为上1000+客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为泰宁企业提供专业的成都网站建设、网站设计，泰宁网站改版等技术服务。拥有十载丰富建站经验和众多成功案例,为您定制开发。

1.背景：

对一个文件中的key进行过滤，需要过滤的key存储在另一个文件中。需要过滤的key数量很大，有上亿条，因此采用bloomfilter等方法不太合适。同时文件中的带过滤的key可能会很多也可能很少。因此采用value二次排序的方法过滤，将需要过滤的key做成key0,真实的key做成key1。使用分区函数和key比较函数将相同的key发送到同一个机器上，只要判断key的第一个key值key0是否存在就可以确定key是否需要过滤。

2.问题：

采用二次排序，需要实现getPartition函数。考虑到hash函数可能返回负数，因此返回是使用了这样一个函数Math.abs（k）%numReduceTasks。一开始测试的时候没有发现问题，后来将输入文件增多后发现程序会报Illegal partition for错误。

3.处理过程：

直接求助google，从http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出来，错误是因为分区函数返回了负数，这个值不合理。一时有点懵，难道Math.abs（x）返回的不是正数？再次求助google，明白了原来x很大（溢出变成负数）或者很小的负数时，即超过了int的表示范围。返回会是个负数。至此，知道了问题的关键，通过hash得到的k值太大，或者太小，超过了int的可表示范围。嗯，c/c++程序员用java写hadoop就是一堆坑要踩。

4.解决方法：

（1）换一个hash函数，使得hash值在int能表示的范围内。

（2）对hash函数的值先取模在取绝对值 Math.abs(k % numReduceTasks);。

到此，关于“hadoop下Illegal partition for问题怎么处理”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

网站栏目：hadoop下Illegalpartitionfor问题怎么处理
文章地址：http://cdiso.cn/article/pgddps.html

hadoop下Illegalpartitionfor问题怎么处理

其他资讯