今天在学习用Python3.5写一个爬取新浪博客的爬虫,可以爬取某人的博客全部文章,或者单独一篇文章的文本内容,部包括图片,改天把代码放上来。爬虫参照了网上某人用python2写的打码,链接:http://www.jb51.net/article/67820.htm。
遇到了很多问题,百度搜索,修改了一天才没有出错完成。
保存文件的时候,遇到路径问题,网上搜索不到,自己解决的,把方法贴出来。
系统环境,Win10 + Python3.5.1
1 >>> import os2 >>> m = os.path.join('路径','文件名.txt')3 >>> m4 '路径\\文件名.txt'5 >>> m.replace('\\','/')6 '路径/文件名.txt'7 >>>
我测试了,Win10支持反斜杠。上面是相对路径,如果要获取绝对路径,可以使用:
os.path.abspath() #获取当前路径的绝对路径
1 >>> m = os.path.join('路径','文件名.txt')2 >>> m3 '路径\\文件名.txt'4 >>> m = os.path.abspath(m)5 >>> m6 'D:\\lianxi\\spider\\路径\\文件名.txt'7 >>> m.replace('\\','/')8 'D:/lianxi/spider/路径/文件名.txt'