打印

请教用正则表达式解析html

请教用正则表达式解析html

请教如何用正则表达式解析html里的文本
原文是<span class="title">Perl Unicode Regular Expression</span><br/><br/>
存在data中
使用re=data[/.[^<]*/x]
  puts "#{re}"
结果是<span class="title">Perl Unicode Regular Expression
首部的<>没有拆掉!
请高手指教
本帖最近评分记录
  • drive2me R币 +2 鼓励提问题。 2008-3-12 14:08

TOP

我是ruby新手

Ruby的正则表达式还没有开始学。
在C#里面,这个正则表达式应该可以这样写。
reg = @" (<[^>]*>)*(?<myInnerText>[^<]*)(<[^>]*>)*

希望对你有所启发。
本帖最近评分记录
  • drive2me R币 +2 谢谢帮助。 2008-3-12 14:08

TOP

引用:
原帖由 fox 于 2008-3-11 20:03 发表
请教如何用正则表达式解析html里的文本
原文是Perl Unicode Regular Expression
存在data中
使用re=data[/.[^
你可以试试hpricot

安装

gem install hpricot


你的问题就很容易解决了

 doc = Hpricot(%Q{<span class="title">Perl Unicode Regular Expression</span>})
 (doc/"span.title").first.text


Enjoy.
本帖最近评分记录
  • drive2me R币 +2 谢谢帮助。 2008-3-12 14:08

TOP

2008-11-23 23:41 Crawled by CCBot/1.0 (+http://www.commoncrawl.org/bot.html) @38.103.63.61