网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

浏览数：65 / 时间：2015年06月09日

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

标签： class html 文件 com log http 方法 it ha class html 文件 com log http 方法 it ha

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

奥马巴儿时旧照

奥马巴儿时旧照

杭州一企业女员工集体穿肚兜上班

杭州一企业女员工集体穿肚兜上班

尼泊尔四个月大婴儿震后22小时获救

尼泊尔四个月大婴儿震后22小时获救

贤淑贤惠的妹妹

贤淑贤惠的妹妹

泰国地下女子裸体泰拳比赛照曝光

泰国地下女子裸体泰拳比赛照曝光

中国最穷困人口，可怜了孩子

中国最穷困人口，可怜了孩子

2014年安徽摔婴事件

2014年安徽摔婴事件

印尼原始部落生活大揭秘

印尼原始部落生活大揭秘

世界美女地图个个都十分美丽身材惹火性感

世界美女地图个个都十分美丽身材惹火性感

女小偷跪地求被偷者别报警

女小偷跪地求被偷者别报警

您可能还喜欢

更多

NBA 新晋第一女神走红

NBA 新晋第一女神走红

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

2014全国职院模特大赛众佳丽秀完美身材

2014全国职院模特大赛众佳丽秀完美身材

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

全球15万女性同秀旗袍挑战吉尼斯世界纪录

全球15万女性同秀旗袍挑战吉尼斯世界纪录

AI 生成的美女图

AI 生成的美女图

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

小众海滩试拍

小众海滩试拍

第十八届深港澳车展

第十八届深港澳车展

栩栩如生的街头三维立体画--绝对逼真

栩栩如生的街头三维立体画--绝对逼真