智能懒人采集神器——全新升级的浏览器自动化采集工具震撼发布!这是一款专为追求效率的用户打造的极简网页数据采集解决方案,采用革命性的可视化操作模式,让数据采集变得前所未有的轻松。无需编写复杂代码,不必研究网页结构,只需通过内置浏览器直观点击目标内容,短短几分钟就能完成专业级采集任务的配置。三大智能采集引擎加持,配合独创的内存优化技术,为您带来飞一般的采集体验!
1、极简操作体验,通过所见即所得的点选方式轻松锁定采集目标;
2、三大智能采集引擎协同工作:浏览器渲染引擎、超高速HTTP引擎、智能JSON解析引擎。特别优化的Firefox内核配合独家内存管理技术,实现浏览器采集的极致性能,更可一键切换至HTTP模式获得闪电般的采集速度!即使是复杂的JSON数据,也能通过可视化点选轻松获取,彻底告别繁琐的数据结构分析;
3、告别源码分析烦恼,却能应对更复杂的网页采集场景;
4、搭载AI智能识别技术,自动生成精准XPATH路径、智能识别数据列表、自动定位分页按钮等高级功能;
5、支持多样化数据导出方案,可导出为TXT、HTML、CSV、Excel等文件格式,也可直连SQLite、Access、SQLServer、MySQL等数据库,通过直观的字段映射向导,轻松实现数据入库。
1、智能可视化配置
所有采集元素自动识别,数据采集一键完成
2、自动化任务调度
灵活设置采集计划,实现全自动无人值守运行
3、多引擎智能切换
集成高性能浏览器内核、极速HTTP引擎和智能JSON解析引擎
4、AI智能识别
自动识别网页数据列表、关键字段和分页结构
5、请求精准控制
自定义域名拦截规则,有效过滤广告资源,大幅提升采集效率
6、全格式数据输出
支持导出至Txt、Excel及各类数据库系统
1、如何避免采集重复数据?
在执行采集任务时,若任务历史数据未被清空,新采集数据将以追加方式存储,可能导致数据重复。此外,源网页本身存在重复内容时也会产生重复数据。解决方案如下:
只需在目标字段表头点击三角图标,勾选"去重过滤"选项并确认即可实现自动去重
2、自定义字段创建方法
点击"新增字段"功能按钮
在网页中点击目标元素,如需要采集标题和链接,直接点击对应标题即可
当点击链接元素时,系统将智能提示是否同步采集链接地址
如需同时采集链接文本和地址选择"是",仅需文本则选择"否",此处我们选择"是"
系统将自动创建标题和链接地址字段,并在预览区显示采集结果。点击字段标题时,网页对应元素会高亮显示。如需添加更多字段,重复上述操作即可。
3、手动创建数据列表
点击"列表识别"按钮,选择"手动标记列表"选项
根据引导,依次点击列表中首行和第二行数据
完成标记后,整个列表区域将高亮显示,并自动生成字段结构。若字段识别不准确,可通过"清除字段"功能重新设置。
4、多级网页采集技巧
采集二级及以上页面时,需确保当前字段列表包含链接地址字段(属性为Href)
选中该字段后,界面将显示"深入采集"功能按钮
点击后将自动创建新配置页并打开选中链接
系统自动切换至"详情页模式"
列表模式:适用于采集列表型数据,预览显示多条记录 详情页模式:专为内容页设计,可采集文章标题、发布时间、正文等详细信息
新建字段采集发布时间(标题已在上级页面采集,此处无需重复)
继续添加正文采集字段
为保留原文格式,建议选择InnerHtml属性获取带HTML标签的完整内容
v4.0.2版本更新说明
新增验证码识别画布尺寸调节功能,完美解决特定网站验证码显示不全的问题
(您的评论需要经过审核才能显示)
0条评论