异步抓取网络页面table表格数据
时间:2023-3-1 21:13 作者:wen 分类: PHP
<?php
/**
* 异步抓取网络页面table表格数据
* @date 2021年10月15日
* @author wen
* @desc 因为都是单独使用的工具,我们就创建静态方法
*/
class GetHtmlData
{
static public string $referer = "";
static public string $userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36";
/**
* 把HTML标签转小写
* @param string $html HTML内容
* @return string
*/
static public function htmltolower(string $html): string
{
return preg_replace_callback("/(<\/?)(\w+)([^>]*>)/", function ($matches) {
return $matches[1] . strtolower($matches[2]) . $matches[3];
}, $html);
}
/**
* 异步批量网络请求
* @param string[] $urls 请求链接数组
* @return string[]
*/
static public function curl_multi(array $urls): array
{
$result = [];
//1 创建批处理cURL句柄
$mh = curl_multi_init();
$chArr = [];
//创建多个cURL资源
for ($i = 0; $i < count($urls); $i++) {
$chArr[$i] = curl_init();
curl_setopt($chArr[$i], CURLOPT_URL, $urls[$i]);
curl_setopt($chArr[$i], CURLOPT_RETURNTRANSFER, 1);
curl_setopt($chArr[$i], CURLOPT_TIMEOUT, 60);
curl_setopt($chArr[$i], CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($chArr[$i], CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($chArr[$i], CURLOPT_USERAGENT, self::$userAgent);
if (!empty(self::$referer)) {
curl_setopt($chArr[$i], CURLOPT_REFERER, self::$referer);
}
//2 增加句柄
curl_multi_add_handle($mh, $chArr[$i]);
}
$active = null;
/**
* 本次循环第一次处理 $mh 批处理中的 $ch 句柄,并将 $mh 批处理的执行状态写入 $active,
* 当状态值等于 CURLM_CALL_MULTI_PERFORM 时,表明数据还在写入或读取中,执行循环,
* 当第一次 $ch 句柄的数据写入或读取成功后,状态值变为 CURLM_OK ,跳出本次循环,进入下面的大循环中。
*/
do {
//处理在批处理栈中的每一个句柄
$mrc = curl_multi_exec($mh, $active);
usleep(20000);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
/**
* 上面这段代码中,是可以直接使用 $active > 0 来作为 while 的条件,如下:
* do {
* $mrc = curl_multi_exec($mh, $active);
* } while ($active > 0);
* 此时如果整个批处理句柄没有全部执行完毕时,系统会不停的执行 curl_multi_exec 函数,从而导致系统CPU占用会很高,
* 因此一般不采用这种方案,可以通过 curl_multi_select 函数来达到没有需要读取的程序就阻塞住的目的。
*/
/**
* $active 为 true 时,即 $mh 批处理之中还有 $ch 句柄等待处理,
* $mrc == CURLM_OK,即上一次 $ch 句柄的读取或写入已经执行完毕。
*/
while ($active && $mrc == CURLM_OK) {
/**
* 程序进入阻塞状态,直到批处理中有活动连接(即 $mh 批处理中还有可执行的 $ch 句柄),
* 这样执行的好处是 $mh 批处理中的 $ch 句柄会在读取或写入数据结束后($mrc == CURLM_OK)进入阻塞阶段,
* 而不会在整个 $mh 批处理执行时不停地执行 curl_multi_exec 函数,白白浪费CPU资源。
*/
if (curl_multi_select($mh) != -1) {
//程序退出阻塞状态继续执行需要处理的 $ch 句柄
do {
$mrc = curl_multi_exec($mh, $active);
usleep(20000);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
foreach ($chArr as $k => $ch) {
//5 获取句柄的返回值
$result[] = curl_multi_getcontent($ch);
//6 将$mh中的句柄移除
curl_multi_remove_handle($mh, $ch);
}
//7 关闭全部句柄
curl_multi_close($mh);
return $result;
}
/**
* 获取页面表格
* @param string $html 页面内容
*/
static public function getTable(string $html): array
{
//去除换行空格
$html = str_replace(['<br/>', "\t", "\r\n", "\r", "\n"], '', $html);
//比配表格 [^>] 表示不是>字符
preg_match_all("/<table[^>]*>(.*?)<\/table>/si", $html, $content);//获取table内容
return $content;
}
/**
* 抓取表格里的数据
* @param string $info 网页内容数据
* @return array
*/
static public function getTableDate($content)
{
//大写转小写
$content = self::htmltolower($content);
//根据tr切成数组
$table_array = explode('</tr>', $content);
//拿到表格数据
$data = array();
for ($i = 1; $i < count($table_array); $i++) {
//根据td拆分成数组
$data[$i] = explode('</td>', $table_array[$i]);
for ($j = 0; $j < count($data[$i]); $j++) {
//去除多余html标签和空格
$data[$i][$j] = preg_replace('/\s(?=\s)/', '', trim(strip_tags($data[$i][$j])));
}
//删除最后一个多余的字段
array_pop($data[$i]);
}
array_pop($data);
return $data;
}
}
$url = "https://wenxk.top/node/35";
$urls = [$url];
$result_arr = GetHtmlData::curl_multi($urls);
$table_data = array();
foreach ($result_arr as $result) {
$content = GetHtmlData::getTable($result);
$table_data[] = GetHtmlData::getTableDate($content[1][0]);
}
var_dump($table_data);