顺序读文件中,对于每个词x,取,然后按照该值存到5000个小文件(记为) 中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还 可以按照
类似的方法继续往下分,知道分解得到的小文件的大小都不超过1M。 对每个小文件java基础实践题目,统计每个文件中出现的词以及相应的频率(可以采用trie 树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最 小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件。下一 步就是把这5000个文件进行归并(
类似与归并排序)的过程了。
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.bianchenghao6.com/h6javajc/413.html