S2Robot / URLバリデーションのバグ?
クローラーでS2Robotを使っています。
巡回先のロボット拒否設定を確認するために、
S2RobotのUrlFilterを使用しています。
https://github.com/seasarorg/s2robot/blob/master/s2robot/src/main/java/org/seasar/robot/filter/impl/UrlFilterImpl.java
巡回対象URLをチェックする(match())際、ロボット拒否判定(false)されてしまいます。
ですが、対象ドメインのrobots.txtにはそのような記載はありません。
ログに出力したFilterは下記のような形になっていました。
[urlPattern=^(.*:/+)([^/]*)(.*)$, includeFilteringPattern=null, excludeFilteringPattern=null, cachedIncludeList=[], cachedExcludeList=[], sessionId=20150324042508095, urlFilterService=org.seasar.robot.service.impl.UrlFilterServiceImpl@7241f1f1]]
UrlFilterImplのmatch()内の、getIncludeUrlPatternList()等は下記です。
https://github.com/seasarorg/s2robot/blob/master/s2robot/src/main/java/org/seasar/robot/service/impl/UrlFilterServiceImpl.java
↑
※恥ずかしながら、dataHelperの中身が追えません。
これはいったい何が起きているのでしょうか?
よろしくお願いいたします。