怎么利用PHP抓取百度阅读
发布时间:2022-02-24 10:22:11 所属栏目:PHP教程 来源:互联网
导读:本文实例讲述了PHP编程实现的TCP服务端和客户端功能。分享给大家供大家参考,具体如下: 1、修改php.ini,打开extension=php_sockets.dll 2、服务端程序SocketServer.php ?php //确保在连接客户端时不会超时 set_time_limit(0); //设置IP和端口号 $address =
本文实例讲述了PHP编程实现的TCP服务端和客户端功能。分享给大家供大家参考,具体如下: 1、修改php.ini,打开extension=php_sockets.dll 2、服务端程序SocketServer.php <?php //确保在连接客户端时不会超时 set_time_limit(0); //设置IP和端口号 $address = "127.0.0.1"; $port = 3046; /** * 创建一个SOCKET * AF_INET=是ipv4 如果用ipv6,则参数为 AF_INET6 * SOCK_STREAM为socket的tcp类型,如果是UDP则使用SOCK_DGRAM */ $sock = socket_create(AF_INET, SOCK_STREAM, SOL_TCP) or die("socket_create() fail:" . socket_strerror(socket_last_error()) . "/n"); //阻塞模式 socket_set_block($sock) or die("socket_set_block() fail:" . socket_strerror(socket_last_error()) . "/n"); //绑定到socket端口 $result = socket_bind($sock, $address, $port) or die("socket_bind() fail:" . socket_strerror(socket_last_error()) . "/n"); //开始监听 $result = socket_listen($sock, 4) or die("socket_listen() fail:" . socket_strerror(socket_last_error()) . "/n"); echo "OK/nBinding the socket on $address:$port ... "; echo "OK/nNow ready to accept connections./nListening on the socket ... /n"; do { // never stop the daemon //它接收连接请求并调用一个子连接Socket来处理客户端和服务器间的信息 $msgsock = socket_accept($sock) or die("socket_accept() failed: reason: " . socket_strerror(socket_last_error()) . "/n"); while(1){ //读取客户端数据 echo "Read client data /n"; //socket_read函数会一直读取客户端数据,直到遇见/n,/t或者/0字符.PHP脚本把这写字符看做是输入的结束符. $buf = socket_read($msgsock, 8192); echo "Received msg: $buf /n"; if($buf == "bye"){ //接收到结束消息,关闭连接,等待下一个连接 socket_close($msgsock); continue; } //Cuoxin.com //数据传送 向客户端写入返回结果 $msg = "welcome /n"; socket_write($msgsock, $msg, strlen($msg)) or die("socket_write() failed: reason: " . socket_strerror(socket_last_error()) ."/n"); } } while (true); socket_close($sock); ?> 3、客户端程序SocketClient.php <?php set_time_limit(0); $host = "127.0.0.1"; $port = 3046; $socket = socket_create(AF_INET, SOCK_STREAM, SOL_TCP)or die("Could not create socket/n"); $connection = socket_connect($socket, $host, $port) or die("Could not connet server/n"); socket_write($socket, "hello socket") or die("Write failed/n"); while ($buff = socket_read($socket, 1024, PHP_NORMAL_READ)) { echo("Response was:" . $buff . "/n"); echo("input what you want to say to the server:/n"); $text = fgets(STDIN); socket_write($socket, $text); } socket_close($socket); ?> 4、测试 运行服务端程序:C:wampbinphpphp5.4.16php.exe C:wampwwwSocketServer.php 运行客户端程序: C:wampbinphpphp5.4.16php.exe C:wampwwwSocketClient.php 如果遇到 Fatal error: Call to undefined function socket_create()。 1. 找到php.ini,看 extension=php_gd2.dll 和 extension=php_sockets.dll 扩展是否打开; 2. 看phpInfo()显示的内容里,socket模块是否为enable; 我检查了一下,发现都是符合的。但错误仍然出现?怎么回事呢? 后来我才发现,原来是我在phpInfo()里看到的和在cmd窗口里使用的php不是同一个东西。 原因是我多次安装过php. 先前的php在系统的环境变量里面注册了path。所以在cmd窗口里使用的是以前的php. 而在phpInfo()里显示的是现在的php的设置。 解决的办法很简单了,就把系统环境变量里的path里,指向老的Php的路径改为指向正在使用的Php的路径。这样在cmd里的php和在浏览器里的php就是同一个东西了。 就是这样。 5、其流程与C语言很相似,实际上就是封装了C语言的socket。抓取方法如下:首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的。 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下。 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3769eae009581becba?m=8ed1dedb240b11bf0731336eff95093f&type=json&cn=1&_=1&t=1423309200&callback=wenku7 返回的是一个jsonp字符串,然后我发现,如果把地址里面的callback=wenku7去掉,返回的就是一个json字符串,这样解析起来就方便不少,可以直接在php里面转换成数组。 再来分析一下返回数据的结构,返回的json字符串之后是一个树状的结构,每个节点都有一个t属性和c属性,t属性用来指明这个节点的标签,比如h2 div等等,c属性就是内容了,但也有两种可能,一个是字符串,另一个是数组,数组的每个元素都是一个节点。 这种结构最好解析了,用一个递归就搞定,最终代码如下: <?php classBaiduYuedu { protected$bookId; protected$bookToken; protected$cookie; protected$result; publicfunction__construct($bookId,$bookToken,$cookie){ $this->bookId =$bookId; $this->bookToken =$bookToken; $this->cookie =$cookie; } publicstaticfunctionparseNode($node){ $str='' if(is_string($node['c'])){ $str.=$node['c']; }elseif(is_array($node['c'])){ foreach($node['c']as$d){ $str.= self::parseNode($d); } } switch($node['t']){ case'h2': $str.="/n/n"; break; case'br': case'div': case'p': $str.="/n"; break; case'img': case'span': break; case'obj': $tmp='('. self::parseNode($node['data'][0]) .')' $str.=str_replace("/n",'',$tmp); break; default: trigger_error('Unkown type:'.$node['t'], E_USER_WARNING); break; } return$str; } publicfunctionget($page= 1){ echo"getting page {$page}.../n"; $ch= curl_init(); $url= sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d',$this->bookId,$this->token,$page); curl_setopt_array($ch,array( CURLOPT_URL =>$url, CURLOPT_RETURNTRANSFER => 1, CURLOPT_HEADER => 0, CURLOPT_HTTPHEADER =>array('Cookie: '.$this->cookie) )); $ret= json_decode(curl_exec($ch), true); curl_close($ch); $str='' if(!emptyempty($ret)){ $str.= self::parseNode($ret); $str.=$this->get($page+ 1); } return$str; } publicfunctionstart(){ $this->result =$this->get(); } publicfunctiongetResult(){ return$this->result; } publicfunctionsaveTo($path){ if(emptyempty($this->result)){ trigger_error('Result is empty', E_USER_ERROR); return; } file_put_contents($path,$this->result); echo"save to {$path}/n"; } } //Cuoxin.com //使用示例 $yuedu=newBaiduYuedu(�a3769eae009581becba',Ǝed1dedb240b11bf0731336eff95093f','你的百度域cookie'); $yuedu->start(); $yuedu->saveTo('result.txt'); 这个类前两个参数可以从小说的介绍页面获得,第一个参数bookId就是url里ebook后面跟着的字符串,第二个参数bookToken在页面源代码搜索bdjsonUrl,m参数后面的那个字符串就是。 注:如果不传入百度cookie或者百度cookie无效,则只能抓取免费阅读部分,要抓完整的内容必须保证cookie可以正常使用。 总结:以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用PHP能有一定的帮助,如果有疑问大家可以留言交流。 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐
热点阅读