php linux google Firefox 程序员 apache Windows wordpress 微软 java shell nginx mysql 开源 centos Android Ubuntu Python linux命令 HTML5

网站采集程序编写技巧

采集是中国互联网高频操作,如果你不会编程,可以用"火车头"这样的软件,这个软件业需要学习成本的,可能会有点复杂。程序员来做当然是自己编程,我一般用python写爬虫程序,偶尔用javascript,我以前见过一个码农用c++写,牛逼。

临时性采集某个页面

直接用firefox打开网页,注入jquery,编写各种css选择器,然后用document.write来把结果写到网页上,复制出来

采集确定数据比如采集淘宝商品页上的价格信息,这种单一数据,用正则表达式就行

采集循环数据

这是指采集列表页,多条url,这种情况用BeautifulSoup 中文网页编码很杂,数据多半都不规范,经常会抛出异常,程序特别需要注意容错

数据的存储我先后用过文本文件,sqlite,mysql存放数据。我推荐使用直接msyql,这样后期迁移数据比较省事

采集程序的组织如果你只需要采集标题和正文,哪很简单,但是大部分采集都需要把解析数据,对应自己的数据结构。由于网页不规范,解析程序容易出现错误导致程序退出。采集程序最好分成2部分:

  1. 采集到 网页内容,就直接入库,数据表只包括2个字段:url,html
  2. 另外写一个程序来解析你采集的页面

延伸阅读

评论