真的就是我的爬虫日记

2025年8月9日

阅读需 3 分钟

wqz

爬虫

/日记

/技术

先说结论：项目还在跑，我还在肝，希望交付那天我还能笑得出来。

事情是这样开始的

老板丢给我一句话：

“五天之内，把全球报纸/新闻网站/杂志的邮箱爬下来，2000块，周三给我结果。”

行吧，穷鬼如我，接了。

网站有两个：w3newspapers 和 scimagomedia。我挑了后者，队友 gjy 负责前者。心想：排行页面，看着就好搞。

第一次接单能顺利开张，还得谢 gjy 带飞。

第一天甩头就写脚本，动了三小时发现——呃，邮箱在哪？页面里根本没有！

被 AI 带沟里

我跑去问 GPT，它一本正经地让我去抓 SJR 的数据。我还真听了，哐哐爬了一晚，第二天对着一堆“期刊影响因子”直接懵了——这玩意儿跟邮箱有啥关系？

鬼知道那一刻我有多想掐死它（虽然它没脖子）。

转机：下载按钮

继续扒站的时候瞄到一个不起眼的“Download Excel”。点开，6000 多行域名躺那儿——“就是你了！”

脚本改成：读 Excel → 进站 → 找邮箱。听起来简单，做起来……呵呵。

准确率惨不忍睹

第一版只能抓到十几个邮箱。加重试、换 UA、正则满天飞、线程拉满，还是一堆 403。

Cloudflare 像铁门一样挡在那——我敲了半天门，门卫只回我一句 “Access Denied”。

搬救兵

再次求助 AI，这次它靠谱点：

用 Playwright 假装真人点点点。
把域名分档：先快跑一遍，失败的再慢慢啃。
加免费代理池。

照做之后，能把 forbes、reuters 的邮箱抓出来，成就感+10086。

速度 vs 准确率：永恒之战

线程一多就超时，线程一少又慢得想睡。调来调去，效率上不去，准确率下不来。

最后妥协：

快速爬 → 拿 40% 邮箱先。
失败清单丢给“慢但狠”的策略。
特别重要的站点再手动开浏览器。

世界上最贵的脚

昨晚临睡前看进度 85%，我乐呵呵去倒杯水，结果脚勾到插线板……啪，黑屏。

18 小时记录说没就没。

当场石化。教训：断点续传必须有！

现在的战况

结构整理完，文件都塞进 src / data / logs… 各自位置。
日志和进度文件写好了，断电也不怕。
准确率大概 60%，还能再救一点。

时间表（真·赶鸭子上架）

今天：让脚本跑完，整理失败列表。
明天：对失败站开二次爬 → 清洗去重 → 写交付说明。
后天早上：最后验收，发货，收钱！

想说点人话的总结

别盲信 AI，它能给方向，也能坑你。
备份、断点、日志，缺一条就等着哭。
真实项目比教程脏多了，可学到的也多。

写到这儿脚本还在喘，一会儿再去看日志。祝我好运，也祝屏幕前的你少掉坑里。

—— 2025/08/08 深夜，咖啡见底

事情是这样开始的​

被 AI 带沟里​

转机：下载按钮​

准确率惨不忍睹​

搬救兵​

速度 vs 准确率：永恒之战​

世界上最贵的脚​

现在的战况​

时间表（真·赶鸭子上架）​

想说点人话的总结​

目录