«

异步抓取网络页面table表格数据

时间:2023-3-1 21:13     作者:wen     分类: PHP


<?php

/**
 * 异步抓取网络页面table表格数据
 * @date 2021年10月15日
 * @author wen
 * @desc 因为都是单独使用的工具,我们就创建静态方法
 */
class GetHtmlData
{
   static public string $referer = "";
   static public string $userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36";

   /**
    * 把HTML标签转小写
    * @param string $html HTML内容
    * @return string
    */
   static public function htmltolower(string $html): string
   {
      return preg_replace_callback("/(<\/?)(\w+)([^>]*>)/", function ($matches) {
         return $matches[1] . strtolower($matches[2]) . $matches[3];
      }, $html);
   }

   /**
    * 异步批量网络请求
    * @param string[] $urls 请求链接数组
    * @return string[]
    */
   static public function curl_multi(array $urls): array
   {

      $result = [];
      //1 创建批处理cURL句柄
      $mh = curl_multi_init();
      $chArr = [];

      //创建多个cURL资源
      for ($i = 0; $i < count($urls); $i++) {
         $chArr[$i] = curl_init();

         curl_setopt($chArr[$i], CURLOPT_URL, $urls[$i]);
         curl_setopt($chArr[$i], CURLOPT_RETURNTRANSFER, 1);
         curl_setopt($chArr[$i], CURLOPT_TIMEOUT, 60);

         curl_setopt($chArr[$i], CURLOPT_SSL_VERIFYPEER, false);
         curl_setopt($chArr[$i], CURLOPT_SSL_VERIFYHOST, false);
         curl_setopt($chArr[$i], CURLOPT_USERAGENT, self::$userAgent);
         if (!empty(self::$referer)) {
            curl_setopt($chArr[$i], CURLOPT_REFERER, self::$referer);
         }
         //2 增加句柄
         curl_multi_add_handle($mh, $chArr[$i]);
      }

      $active = null;

      /**
       * 本次循环第一次处理 $mh 批处理中的 $ch 句柄,并将 $mh 批处理的执行状态写入 $active,
       * 当状态值等于 CURLM_CALL_MULTI_PERFORM 时,表明数据还在写入或读取中,执行循环,
       * 当第一次 $ch 句柄的数据写入或读取成功后,状态值变为 CURLM_OK ,跳出本次循环,进入下面的大循环中。
       */
      do {
         //处理在批处理栈中的每一个句柄
         $mrc = curl_multi_exec($mh, $active);
         usleep(20000);
      } while ($mrc == CURLM_CALL_MULTI_PERFORM);
      /**
       * 上面这段代码中,是可以直接使用 $active > 0 来作为 while 的条件,如下:
       * do {
       *     $mrc = curl_multi_exec($mh, $active);
       * } while ($active > 0);
       * 此时如果整个批处理句柄没有全部执行完毕时,系统会不停的执行 curl_multi_exec 函数,从而导致系统CPU占用会很高,
       * 因此一般不采用这种方案,可以通过 curl_multi_select 函数来达到没有需要读取的程序就阻塞住的目的。
       */

      /**
       * $active 为 true 时,即 $mh 批处理之中还有 $ch 句柄等待处理,
       * $mrc == CURLM_OK,即上一次 $ch 句柄的读取或写入已经执行完毕。
       */
      while ($active && $mrc == CURLM_OK) {
         /**
          * 程序进入阻塞状态,直到批处理中有活动连接(即 $mh 批处理中还有可执行的 $ch 句柄),
          * 这样执行的好处是 $mh 批处理中的 $ch 句柄会在读取或写入数据结束后($mrc == CURLM_OK)进入阻塞阶段,
          * 而不会在整个 $mh 批处理执行时不停地执行 curl_multi_exec 函数,白白浪费CPU资源。
          */
         if (curl_multi_select($mh) != -1) {
            //程序退出阻塞状态继续执行需要处理的 $ch 句柄
            do {
               $mrc = curl_multi_exec($mh, $active);
               usleep(20000);
            } while ($mrc == CURLM_CALL_MULTI_PERFORM);
         }
      }

      foreach ($chArr as $k => $ch) {
         //5 获取句柄的返回值
         $result[] = curl_multi_getcontent($ch);
         //6 将$mh中的句柄移除
         curl_multi_remove_handle($mh, $ch);
      }
      //7 关闭全部句柄
      curl_multi_close($mh);
      return $result;
   }

   /**
    * 获取页面表格
    * @param string $html 页面内容
    */
   static public function getTable(string $html): array
   {
      //去除换行空格
      $html = str_replace(['<br/>', "\t", "\r\n", "\r", "\n"], '', $html);
      //比配表格 [^>] 表示不是>字符
      preg_match_all("/<table[^>]*>(.*?)<\/table>/si", $html, $content);//获取table内容

      return $content;
   }

   /**
    * 抓取表格里的数据
    * @param string $info 网页内容数据
    * @return array
    */
   static public function getTableDate($content)
   {
      //大写转小写
      $content = self::htmltolower($content);
      //根据tr切成数组
      $table_array = explode('</tr>', $content);

      //拿到表格数据
      $data = array();
      for ($i = 1; $i < count($table_array); $i++) {
         //根据td拆分成数组

         $data[$i] = explode('</td>', $table_array[$i]);

         for ($j = 0; $j < count($data[$i]); $j++) {
            //去除多余html标签和空格
            $data[$i][$j] = preg_replace('/\s(?=\s)/', '', trim(strip_tags($data[$i][$j])));

         }
         //删除最后一个多余的字段
         array_pop($data[$i]);
      }
      array_pop($data);
      return $data;
   }

}

$url = "https://wenxk.top/node/35";
$urls = [$url];
$result_arr = GetHtmlData::curl_multi($urls);
$table_data = array();
foreach ($result_arr as $result) {
   $content = GetHtmlData::getTable($result);
   $table_data[] = GetHtmlData::getTableDate($content[1][0]);
}
var_dump($table_data);