摘要:在证券行业,用户数据处理和分析是核心技术,对业务决策和风险控制具有重要的影响。然而,证券公司庞大的用户数据规模和复杂的数据关系导致大数据计算面临Shuffle操作和数据倾斜问题。现有的Shuffle和数据倾斜优化方法或依赖于硬件升级,或存在领域局限性,难以针对性解决该问题。为此,基于证券行业用户数据的特点,提出了一种基于用户关系的多分组归并算法(multi group merging algorithm,MGMA)。该算法通过有效分组和优化处理策略,显著提升计算效率,并降低计算资源消耗。实验表明,相较于无优化对照组,MGMA算法的数据倾斜率为20%,内存占用为72%,计算用时为61%,且上述3项指标均优于其他4种对比优化方法。