先说结论:项目还在跑,我还在肝,希望交付那天我还能笑得出来。
事情是这样开始的
老板丢给我一句话:
“五天之内,把全球报纸/新闻网站/杂志的邮箱爬下来,2000块,周三给我结果。”
行吧,穷鬼如我,接了。
网站有两个:w3newspapers 和 scimagomedia。我挑了后者,队友 gjy 负责前者。心想:排行页面,看着就好搞。
第一次接单能顺利开张,还得谢 gjy 带飞。
第一天甩头就写脚本,动了三小时发现——呃,邮箱在哪?页面里根本没有!
被 AI 带沟里
我跑去问 GPT,它一本正经地让我去抓 SJR 的数据。我还真听了,哐哐爬了一晚,第二天对着一堆“期刊影响因子”直接懵了——这玩意儿跟邮箱有啥关系?
鬼知道那一刻我有多想掐死它(虽然它没脖子)。
转机:下载按钮
继续扒站的时候瞄到一个不起眼的“Download Excel”。点开,6000 多行域名躺那儿——“就是你了!”
脚本改成:读 Excel → 进站 → 找邮箱。听起来简单,做起来……呵呵。