只显示主题贴
在java中采用jcifs.http.NtlmHttpFilter 可以进行认证,可是在rails我找不到相关代替品。也不想用jruby。。
- 进入论坛 入门讨论 版
报告一下最新情况
主要改进方面:
1.采用最新程序 2.3.1->2.3.2
2.取消RAMDirectory,只采用IndexWriter,通过setMaxBufferedDocs 来进行缓存。
3. auto-commit 设置为 false,setMaxBufferedDocs 设置为 500
4. 采用addIndexesNoOptimize ,合并是不进行优化。
以上有些是基本优化策略,只是以前不知道,没有采用 汗。。
程序还在运行中,已经运行了15个小时
目前统计数据如下
cpu 基本 10-50% 波动比较大
内存持续攀升 2->4g
...
- 进入论坛 Java 版
nwangwei 写道还是要分而治之,保持每个索引文件在5-16G以内,查询的时候用lucene的并行查询。
我们的情况是每天500-700M,做起来大概半小时左右,然后再合并到每月的那个索引上,每月大概16G。最后一天要做n个小时(n<8),因为要合并到15G大的索引上。
恩 资讯一下 15g大小的索引查询时间是多少?
你们有几个月(几个15g)数据?
查询的时候是一起查询吗?
我这里1t数据就可以生成300g索引数据。
如果按照15个划分的话,就是20组索引文件。检索的时候是利用ParallelMultiSearcher进行检索吗?
- 进入论坛 Java 版
crackcell 写道我做过一个spider,在教育网内使用的,大概每天可以索引几百G的文件。索引时采用的方法是分块然后多线程同时做索引,最后再归并。这样速度还可以的。
是在一台很普通的PC机上用的。
分块?我现在是分文件夹索引,独立索引。
- 进入论坛 Java 版
edwardpro 写道我做3g数据的话大约20分钟时间(包括数据从数据库中读取的时间)
机器:
amd X2 4u
16g 内存
sas硬盘
我平时觉得速度慢的原因是优化间隔的控制,特别是数据大了之后每次优化时间会非常长要控制好频度.
是呀 感觉现在是小孩玩大锤。
我连统计文件夹大小都不太容易。
跟别说t级优化了。想做没时间。
- 进入论坛 Java 版
非常感谢您的解答!
roger51 写道我测试过的数据量大概是117G左右。几个建议
1,首先在你的txt作索引前,先把txt需要处理的字段整理出来放到一个queue里,让处理txt和索引txt的功能分离开,这样处理起来比较快,数据来源比较直接,不用在解析了
分开读取文件和索引文件的功能吗?可以简单的理解问读取和写入功能分开吗?
不是很理解,由于全txt需要做检索,所以目前是读取一个文件,索引一个文件。
roger51 写道
2,对索引文件比如txt的content区域内的数据可以截取一部分或者只索引不存储,高亮显示的时候可以用位置及偏移量来求得
这个目前只索引不存储txt的conten ...
- 进入论坛 Java 版







评论排行榜