题目读起来很绕,是这样的,我的小站用了dedecms的一个插件,它能生成若干个 google sitemap 的 .xml 文件,然而却没有对应的利于百度收录的插件可使用。在网上查了一下,说是要提取这些 .xml 文件中的链接出来,生成一个对应的 sitemap.txt 才行,然后以如下格式放到 robot.txt 中
Sitemap: http://your site/sitemap.xml. http://your site/sitemap.txt
可是一个一个手动提取其中的链接太麻烦了,我用了20分钟写了一个 python 脚本,方便这个操作,当然程序还很简陋,但也足够我用了。
现在的功能是:从网站下载 sitemap.xml 文件,提取其中的链接生成 sitemap.txt 然后再传回网站,最后生成一个 robot.txt 作为参考。因为文件较多,我用了一个线程池,加快处理速度。
这个小脚本是在 linux 下写的,测试运行良好,我没有在 win32 平台下测试,但也应该能够工作。
脚本中引用的 common 模块中存放了一个线程池(抄来的 -O-),代码如下:
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛