一种网络爬虫的页面列表信息自动提取方法及系统(202010222132.4)

本发明涉及一种在网络爬虫技术中智能识别网页列表中列表项(标题)和列表项附属信息(属性,如时间、发布者等)的自动提取算法。通过分析网页列表页的结构、分析列表页HTML标签的排列特点,推断页面中列表项和列表项属性所在的位置,实现网络爬虫自动抓取网页内容的目的。属于网络爬虫技术应用领域。

阅读剩余
THE END