微信公众号文章爬虫尝试
需求
之所以想要抓取微信公众号的文章,是因为我想把孟岩公众号的文章打包整理为一个电子书,方便查看,统一阅读。微信公众号对于历史文章支持的很不好。卡片式的展示也很影响连续阅读的体验。再吐槽一下,公众号的banner风尚也是一个很鸡肋的存在,很是累赘。
失败的尝试
- 首先根据网上的方法利用Fiddler获取文章列表,但是没有成功,以失败告终
- 使用文档导出助手,导出的文章是独立的pdf格式,epub格式需要客服手工处理,质量也不好保证
微信代理
很多人可能不知道,微信是可以挂代理的。TG、TIM、QQ好像都是差不多的设计,差不多是IM工具标配了。
一个半自动爬取文章内容的方法
1. 手工抓取公众号文章链接
微信的反爬机制做的很好(后来我细想可能也不单是为了反爬),最终我也没找到可以批量获取公众号链接的方法。
网上查了很多资料,做了很多尝试,想自动抓取公众号的全部链接都没有成功,这个路堵得很死。这样我就利用手工点击的方式抓去了孟岩公众号的所有链接。好在公众号只有两百多篇文章,半个多小时也就手工抓完了。
2. Selenium爬取公众号HTML原码
最初尝试使用requests,无法爬取到文章内容。做了一些尝试后发现姿势不对。然后换用selenium爬取。立杆见影,成功了。但是又遇到了一个新问题,图片不能加载。这样在selenium中开始尝试自动化控制滚轮,强制刷新图片,这样可以了。
代码如下:
import os
import sys
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
driver = webdriver.Chrome()
#driver.set_window_size(1080,800)
action = ActionChains(driver)
def is_end():
pageHeight = driver.execute_script("return document.body.scrollHeight")
totalScrolledHeight = driver.execute_script("return window.pageYOffset + window.innerHeight")
# -1 is to make sure the rounding issues
print(pageHeight, totalScrolledHeight)
if((pageHeight-1)<=totalScrolledHeight):
return True
else:
return False
def scroll_down(cnt):
for i in range(cnt):
time.sleep(1)
# action.send_keys(Keys.PAGE_DOWN)
# action.perform()
driver.execute_script("window.scrollBy(0,500)")
if is_end():
print("it is end")
time.sleep(2)
break
else:
print("not end")
with open(sys.argv[1], 'r', encoding='utf-8') as fp:
for cnt, line in enumerate(fp):
#print("Line {}: {}".format(cnt, line.strip()))
driver.get(url=line)
time.sleep(0.5)
scroll_down(20)
time.sleep(0.5)
print(type(driver.title), driver.title)
with open("%03d.html"%cnt, 'w', encoding='utf-8') as f:
print(driver.page_source, file=f)
#break
# if cnt > 1:
# break
driver.close()
代码解释:
- 需要传递一个文件参数(sys.argv[1]),文件存储的内容为链接
- 要想运行需要安装本地安装chrome浏览器,并安装chromedriver(全局目录)
- 延时参数需要根据实际网络状况调整(不着急可以把全部参数加倍)
总结
- python大法好
- 爬取到html之后可以再利用BS4进行抽取格式化
- 然后利用pandoc将html转为md格式并把图片下载到本地(用scapy代替pandoc应该也是可以的,pandoc更简单)
- 微信的html源码里面有不少注释存在,这个还是让我有些意外的,大概这个地方不用做的极致吧
- 如果可以快速获取公众号全部链接接,整个工具链就完备了(欢迎各位读者留言告知)