从不同的文件格式中提取图片,可以使用以下方法:
从HTML中提取图片URL
使用PHP的`preg_match_all`函数和正则表达式来匹配HTML中的``标签并提取`src`属性值,即图片的URL。
从PDF文件中提取图片
使用Python的`PyMuPDF`库(也称为`fitz`)来读取PDF文件,并通过`get_images`方法逐页提取图片。
从Word文档中提取图片
使用Python的`python-office`库中的`docx4imgs`函数,该函数可以读取Word文件并提取图片到指定文件夹。
从PPT/PPTX文件中提取图片
使用Python的`Spire.Presentation`库来加载PPT文件,并通过遍历幻灯片中的所有形状来提取图片。
从图片文件中提取图片
使用Python的`Pillow`库(PIL)来读取图片文件,并进行处理或保存。
示例代码
从HTML中提取图片URL(PHP)
```php
<?php
$content = '