文章来源:ScrapeGraphAI – v1.5.2 基于AI的Python抓取工具
基于AI的爬虫工具,项目开源。
一、介绍
一个开源的网络搜刮 python 库,通过整合 LLM 和直接图逻辑,可自动创建网站和各种本地文档(XML、HTML、JSON 等)的搜刮管道。
只需说出您要提取的信息,即可自动提取,可通过接口(OpenAI、Groq、Azure、Gemini)或使用 Ollama 的本地模型来使用不同的 LLM。
抓取通道有三种:
- SmartScraperGraph :只需要用户提示和输入源的单页抓取工具;
- SearchGraph :从搜索引擎的前 n 个搜索结果中提取信息的多页抓取工具;
- SpeechGraph :从网站中提取信息并生成音频文件的单页抓取工具。
二、快速安装
pip install scrapegraphai
playwright install
使用文档: https://scrapegraph-doc.onrender.com/
三、预览
四、地址
项目地址: https://github.com/VinciGit00/Scrapegraph-ai
在线试用: Google Colab;
最新评论
网飞没问题, 迪士尼+有解决方案么?
pp助手是安卓手机用的,根本下载用不来苹果
已解决
这样的话数据库里的结构为{"attachment":{"content":"xxx"}}, 要怎么才能变成{"content":"xxx"},从而使结构保持一致?
赞! make test不过的坑都写到的,谢谢楼主~
谢谢你
用了root用户还是一直502是怎么回事呢
student id 是空的