正在检查登录状态... | 繁體中文 | 设为首页 | 加入收藏
点击:977 | 评论:0 | 辅助功能: 复制 | 打印 | 字体: | |

Perl获取网页内容

作者: 蓝天下云层上 发表于
版权声明:转载请征求作者同意,转载时必以超链接形式标明文章原始出处和作者信息及版权声明。
/blog/weblog-19465-1.html
一、LWP::Simple 模块 获取代码:

#!/usr/bin/perl
use strict;
use warnings;
use LWP::Simple;
my $url="http://www.test.com";
my $page=get ($url);
print ("\n $page \n \n");
my $status=getprint($url);
print ("\n\n $status\n");
$status=getstore($url,"page.txt");
print ("\n $status \n");

二、HTML解析: HTML::TokeParser模块

#!/usr/bin/perl
2 use strict;
3 use warnings;
4 use LWP::UserAgent;
5 use HTML::TokeParser;
6 my $url="http://www.test.com";
7 my $agent=new LWP::UserAgent();
8 my $request=new HTTP::Request('GET'=>$url);
9 my $response=$agent->request($request);
10 my $document=$response->content();
11
12 my $page=HTML::TokeParser->new (\$document);
13 while (my $token=$page->get_token()){
14 my $type=shift(@{$token});
15 my $text=shift(@{$token});
16 if ($type eq "T"){
17 print ("$text");
18 }
19 }

此日志的引用通告 URL:
http://www.imx365.net/blog/tb.cgi/19465

其实我一直都不知道您在想些什么,有什么感触。说真的,您的评论对于我来说很重要...

还没有人评论过

发表评论
  • (地址不公开)

(访客)