金融界2025年4月2日消息,国家知识产权局信息显示,杭州深度求索人工智能基础技术研究有限公司申请一项名为“种广度数据采集的方法及其系统”的专利,公开号CN119739917A,申请日期为2024年12月。
专利摘要显示,本发明涉及数据采集领域,尤其涉及一种广度数据采集的方法及其系统,包括:建立网页元信息库;确定每日调度单元下载配额及当日下载总额度;从网页元信息库中选取相应数量的链接,分配下载额度;下载过程控制;下载文本进行后处理及数据清洗后进入回灌队列,通过信息回灌实现网页元信息库更新。本发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的连接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。
天眼查资料显示,杭州深度求索人工智能基础技术研究有限公司,成立于2023年,位于杭州市,是一家以从事研究和试验发展为主的企业。企业注册资本1000万人民币,实缴资本1000万人民币。通过天眼查大数据分析,杭州深度求索人工智能基础技术研究有限公司共对外投资了2家企业,财产线索方面有商标信息25条,专利信息1条。
本文源自:金融界