させざきの日記

 | 

2007-12-20

MyMiniCity部のスクレイピングがブーム?

PHPで街を育てる - Do You PHP はてな

http://d.hatena.ne.jp/shimooka/20071220/1198124082

xpath使ってるなら、この場合preg_match使わないで

foreach ($xml->xpath('//div[@class="section"]//td[2]/a[starts-with(.,"http://")]') as $element) {
    $url = $element["href"];
    echo "request : $url ... "."\n";

で、いいような気がしなくもないかもしれない

てか、HTMLSax3ってPHP4かあ。Strictエラーがバカスカでてきたので気づいた。



[追記]あ、元のrubyのやつがそういう抽出方法だからあ

http://kawadash.in/junzou/scripts/myminicitygrower.rb

shimookashimooka2007/12/21 15:31tbありがとうございます。
ああ、そういう手がありましたか。すでに忘却の彼方。。。w

sasezakisasezaki2007/12/21 22:03せせこましいツッコミでどうもスイマセン

shimookashimooka2007/12/22 03:37いえいえ。貴重な情報をありがとうございました。
で、試してみたんですが、xpathのparseに失敗しちゃいました。。。orz
SimpleXMLで対応してないんですかねぇ。ちょっともったいない。

sasezakisasezaki2007/12/22 04:10あれ?自分の環境だとうまく行ったんですが。。
(WindowsXP + PHP5.2.4)
ちょっと後で出来たら確認します。

 |