テキストページを nokogiri で部分抽出する方法
Linux Kernel(https://cdn.kernel.org/pub/linux/kernel/v4.x/ChangeLog-4.1.30)
Becky!(http://www.rimarts.jp/downloads/B2/Readme.txt)
上記 Changelog や Readme のようなテキストのみで構成されているページにおいて、
タイトルや ID のみを抽出するスクレイピング処理(Nokogiri)を実現したいのですが、XPathやCSSセレクタを使ったパースができません。
scan メソッドの正規表現で抽出する方法以外でなにかありませんでしょうか。
■環境
・Windows 10
・Cygwin
・Ruby 2.2.3
・nokogiri 1.6.6.2