网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

浏览数：41 / 时间：2015年06月09日

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可

昨天百度面试官问道的今天研究一下

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

标签：文件方法 ha la sp as 如何 bs 64 文件方法 ha la sp as 如何 bs 64

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

绝对罕见!目睹各国名人遗容照

绝对罕见!目睹各国名人遗容照

超模刘雯

超模刘雯

海边想拍氛围照

海边想拍氛围照

Chinajoy 部分精选

Chinajoy 部分精选

泰国地下女子裸体泰拳比赛照曝光

泰国地下女子裸体泰拳比赛照曝光

甜妹 ootd 穿搭

甜妹 ootd 穿搭

车臣47岁已婚军阀逼婚17岁少女

车臣47岁已婚军阀逼婚17岁少女

河南一男童走失半年再见成“干尸”

河南一男童走失半年再见成“干尸”

实拍厌食症患者的身体干瘪枯瘦

实拍厌食症患者的身体干瘪枯瘦

印象回到中国1993年

印象回到中国1993年

您可能还喜欢

更多

2014年安徽摔婴事件

2014年安徽摔婴事件

Cara Delevingne 选集

Cara Delevingne 选集

2015北影表演专业考试首日校内颜值爆表

2015北影表演专业考试首日校内颜值爆表

2014全国职院模特大赛众佳丽秀完美身材

2014全国职院模特大赛众佳丽秀完美身材

货车侧翻市民：不抢是傻子

货车侧翻市民：不抢是傻子

斯米兰海水是真不错

斯米兰海水是真不错

青岛旅行海滩试拍

青岛旅行海滩试拍

女子占座被指责飞踹老人

女子占座被指责飞踹老人

澳门赌场实拍美女

澳门赌场实拍美女

杰布·布什宣布参加2016年美国总统大选

杰布·布什宣布参加2016年美国总统大选