php爬虫实战(抓取美拍视频)-创新互联

  1. 抓取页面

    企业建站必须是能够以充分展现企业形象为主要目的,是企业文化与产品对外扩展宣传的重要窗口,一个合格的网站不仅仅能为公司带来巨大的互联网上的收集和信息发布平台,创新互联建站面向各种领域:成都茶艺设计成都网站设计成都营销网站建设解决方案、网站设计等建站排名服务。

 地址:http://www.meipai.com/medias/hot

public function getContentByFilegetcontents($url) {         $content = file_get_contents($url);         return $content;     }

然后我们会获取到整个页面的代码,接下来就是从代码中提取出视频的地址 标题 图片等关键信息

2.提取

 我们发现视频的主要代码集中在以下代码中

                  
                                               哈喇嘎子流成河              
                                                         小优Lucky         

                                  3060         
                                  100              

通过正则匹配

 public function extracturl($page) {         $matches = array();         $voide=array();         $mainurl="";         $list=array();         $j=0;         $pat = "/.*?<\/li>/ism";         preg_match_all($pat, $page, $matches, PREG_PATTERN_ORDER);         for ($i=0; $i (.*?)<\/strong>/ism";         preg_match_all($pat3, $matches[0][$i], $title, PREG_PATTERN_ORDER);         $mytitle= $title[1][0];         $list[$j++]=array(          'voide'=>$myvoide,          'title'=>$mytitle,          'img'=>$myimg);                  }         return $list;     } }

全部代码

.*?<\/li>/ism";         preg_match_all($pat, $page, $matches, PREG_PATTERN_ORDER);         for ($i=0; $i (.*?)<\/strong>/ism";         preg_match_all($pat3, $matches[0][$i], $title, PREG_PATTERN_ORDER);         $mytitle= $title[1][0];         $list[$j++]=array(          'voide'=>$myvoide,          'title'=>$mytitle,          'img'=>$myimg);                  }         return $list;     } } $url = "http://www.meipai.com/medias/hot"; $crawler = new Cutecrawler();     $content = $crawler->getContentByFilegetcontents($url);     $c=$crawler->extracturl($content); var_dump($c); ?>

最后结果:

array(24) {   [0]=>   array(3) {     ["voide"]=>     string(51) "http://mvvideo2.meitudata.com/5737fd5caeb838981.mp4"     ["title"]=>     string(27) "老师那些年常说的话"     ["img"]=>     string(58) "https://cache.yisu.com/upload/information/20200310/52/108720.jpg!thumb320"   }   [1]=>   array(3) {     ["voide"]=>     string(50) "http://mvvideo2.meitudata.com/5737fceabf873602.mp4"     ["title"]=>     string(21) "女友突然冷落你"     ["img"]=>     string(58) "http://mvimg2.meitudata.com/5736d25d0aa5d8991.jpg!thumb320"   }   [2]=>   array(3) {     ["voide"]=>     string(51) "http://mvvideo2.meitudata.com/5737f300131e18596.mp4"     ["title"]=>     string(27) "女明星之间的内心戏"     ["img"]=>     string(58) "https://cache.yisu.com/upload/information/20200310/52/108722.jpg!thumb320"   }   [3]=>   array(3) {     ["voide"]=>     string(51) "http://mvvideo2.meitudata.com/5737eb9d0bfc92046.mp4"     ["title"]=>     string(24) "真替老师感到悲剧"     ["img"]=>     string(57) "https://cache.yisu.com/upload/information/20200310/52/108723.jpg!thumb320"   }

接下来。。。你可以存入数据库

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站名称:php爬虫实战(抓取美拍视频)-创新互联
转载来于:http://cdiso.cn/article/dgioio.html