中国商盾网商标查询(商标类别明细)
  • 来源:互联网
  • 发布时间:2026-04-02 02:23:43

爬虫介绍

image这是一个采集程序,不需要登录,根据企业名称抓取企业页面数据。

注:这是一个比较简单的爬虫,基本上只使用代理,不使用其他反爬技术。但是由于爬取的数据量较大,适合刷解析技能的熟练程度,所以高手不要输入

代码已经上传到GitHub有用请给我一个star

python版本: python2.7

编码工具: pycharm

数据存储: MySQL

crawler结构:广度crawler

crawler idea:

iamge
  • 先获取需要采集信息的公司:
  • get from database
  • get field:etid,etname
  • get data from state table of The acquired data storage。并更新状态表
  • 拼接etname和初始url获取初始url
  • 拼接初始URL:
  • 将初始url放在一个列表中,如何在获取HTML时出错,将错误的url放在另一个列表中,进行循环采集
  • 验证查询的公司是否正确(?)
  • 请求解析初始一级页面:
  • 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
  • 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
  • 获取待确定的信息
  • 请求解析二级页面:
  • 创建表
  • 将公司的信息存储到数据库中:
  • 创建表:
  • 创建表:
  • 企业主信息:et_host_info

    iamge
  • 工商信息:et_busi_info
  • 分公司信息:et_branch_office
  • 软件版权信息:et_container_copyright_info
  • 网站记录信息:et _ convainer _ ICP _ info
  • 外商投资信息:et_foreign_investment_info
  • 融资
  • 融资信息: et_rongzi_info
  • 股东信息: et_stareholder_info
  • 商标信息: et_trademark_info
  • 状态表: et_name_status
  • 看一下部分的结果图:

    iamge iamge iamge iamge

    其他文章

  • 晋江丁一酒业贸易有限公司注册成功-酒业贸易公司注册-晋江注册公司
  • 北京盛世华章科技有限公司注册成功-科技公司注册-北京注册公司
  • 利川市博标劳务有限公司注册成功-劳务公司注册-利川注册公司
  • 广州优上科技有限公司注册成功-科技公司注册-广州注册公司
  • 集安市李飞商贸有限公司注册成功-商贸公司注册-集安注册公司
  • 潮之适(江门)生物科技有限公司注册成功-生物科技公司注册-江门注册公司
  • 佛山市晨清科技有限公司注册成功-科技公司注册-佛山注册公司
  • 京中(天津)纳米材料科技有限公司注册成功-纳米材料科技公司注册-天津注册公司
  • 温州昱鸥生物科技有限公司注册成功-生物科技公司注册-温州注册公司
  • 山东锦元防腐保温工程有限公司注册成功-防腐保温工程公司注册-山东注册公司