links for 2011-03-03

2011年3月4日 由 delicious 没有评论 » 17 views

VeryCD备份

2011年1月26日 由 kris 没有评论 » 291 views

最近的VeryCD事件相信大家都有所耳闻,而为了尽量降低这种情况给我带来的影响,早在两个月之前我就启动了VeryCD备份计划,即将VeryCD上的资源备份到GAE上,经过2个多月的努力,第一轮备份终于于昨天完成了(由于最初的爬虫脚本写的不够好,一些页面没抓取到,于是就计划先粗略备份一下,然后针对未抓取到的再进行一次精确的备份),下面就简要说一下在备份过程中遇到的一些情况吧:

VeryCD目前资源条目数大概有20w-30w(猜得),这次备份收录了18w+条数据,备份的内容包括标题、分类、作者、发布、更新日期、ed2k链接以及简介,平均每条数据需要8KB的空间,其中简介是大头,这样算下来显然已经超过了GAE的免费配额,由于之前没考虑到这点,把所有数据都存储在Datastore 中,结果在抓到7-8w条数据的时候存储空间就用爆了,这时刚好申请到了Google Storage for Developer(GS),于是就将占了绝大部分空间的简介转移到了GS上,这样下来平均每条数据只占了2KB,足够把VeryCD上所有条目备份下来了,目前的18w+条数据只使用了不到300M的空间。

接下来再说下使用GAE时碰到的一些问题;

1.免费配额中的存储空间并不是100%可以用来存储用户数据的,队列、BlobSore所占用的空间也要计算在内的,但是不知道为什么Datastore Statistics里显示的和详细配额使用情况里的相差很多,最初的时候只存储到800MB的时候配额就显示已经用完了,后来将简介转移后,存储的全部数据只占了300M,但是配额就显示已经使用了65%…

2.使用urlfetch抓取网页时很容易超时,起初没弄明白为什么,每天带宽配额用的很快,但实际却并没有成功抓取到什么内容,看来看文档后才发现fetch接收一个deadline的参数用来控制超时时间的长短,而默认值只有5s(怪不得会经常超时),将其改成最大值10后,抓取成功率大幅提升;

3.taskqueue很实用,尤其是上面第二条说的fetch任务,添加到taskqueue后,如果没有成功执行会一直重试直到成功为止(我有一个任务重试了800多次…)。

原始数据有了,接下来就是数据的操作与呈现,以及查漏补缺了。

自制blog

2011年1月4日 由 kris 没有评论 » 46 views

最近在玩GAE,看到不少人都在自制blog程序,于是就决定自己也写一个blog程序练练手,经过几周的休息时间,雏形终于出来了。其实利用django框架,开发个blog程序是很简单的事,不过由于之前没深入过网页开发,对于html、css、js这些前端技术还很陌生,走了不少弯路,费了不少劲。

目前已经开发出来的功能有:

  • 文章、页面
  • 评论
  • 标签
  • 简陋的后台
    • 文章、页面管理
    • 富文本编辑(Tinymce)
    • 标签管理
    • 文件管理(1M以内的文件)
    • 选项设置
  • sitemap
  • Atom feed
  • 代码高亮

不准备支持的功能如下:

  • 分类(最开始是支持的,可是后来发现自己很难进行合理的分类,于是这个就砍掉了)
  • 离线编辑工具支持,如live writer(现在主要使用linux,linux平台上貌似没什么好的离线编辑软件,因吃这部分就免了)

其他待添加的功能:

  • pingback,trackback这些功能用的较少,以后看情况添加吧
  • 友链
  • 界面定制
  • Google Storage集成(由于GAE默认只能存储小于1M的文件,再大就要开通支付了,而GS则没有这个限制,因此以后准备将GS文件管理集成到blog程序中,这一部分可能会单独开发)
  • 更加丰富的后台
  • 其他…

links for 2010-12-20

2010年12月21日 由 delicious 没有评论 » 5 views

入手kindle 3

2010年12月7日 由 kris 2 条评论 » 524 views

最终还是没能忍住诱惑败了一台kindle3回来,收到货后迫不及待的拆开包装,总体上还是满意的,但是离期望的还是有一段距离(或许是我期望的太高了)。开箱照就省了,下面只简单的总结一下优缺点。

优点:

1.小巧。从网上我们可以看到,虽然kindle3和kindle2同样的显示面积,但是总体面积却减少了20%,实际加上皮套后就像一个记事薄,这样还有一个好处就是开会的时候用,别人完全看不出来:),而且比我想象中的要薄很多。

2.屏幕效果很棒。得益于E-ink技术,kindle3的屏幕效果非常出色,以至于打开包装后,我甚至以为屏幕上的那个提示是贴上去的,结果找了半天没发现揭的地方。。

缺点:

1.不支持PDF重排,由于屏幕只有6寸,因此如果不支持重排的话读起来就非常费劲了,虽然横屏阅读可以一定程度上减轻这个痛苦,但效果还是不太佳,要知道现在手机上的PDF阅读器都支持重排了,目前可以通过两种方式解决这个问题:a将pdf文件发送到yourusername@free.kindle.com,amazon会将转换后的文件链接发送到你的邮箱,然后可以下载到PC上通过USB传到kindle上,如果有wifi连接的话也可以直接通过wifi下载,但是不支持通过3G传输(这是下面要说的缺点2);b 安装多看系统。

2.3G限制很多,目前3G能做的只有更新信息、从amazon上下载购买的书、以及简单的浏览网页,但是由于其内置的浏览器限制了弹窗(对话框也不行),因此想在kindle上下载文件的同学可以洗洗睡了。

3.不直接支持文件的分文件夹显示。虽然在保存的时候可以放到不同的目录,但是在kindle的home界面不管三七二十一全给你显示到一起,因此如果你往kindle里面塞了很多书的话要找到你想看的就得花一番功夫了。虽然在kindle上可以创建collection,然后将书添加到collection,但文件多的话一个个添加也是很要命的。。。

4.刷新很慢,虽然相比kindle2刷新速度已经提升了不少(没用过kindle2),但是仍然有点让人不爽,据说安装多看后可以提高刷新速度,但是目测没发现太多改善;

5.键盘偏硬,按着不是很舒服,而且导航键偏小,只能通过指甲按,时间长了,肯定会磨损的;

6.不能完美支持中文。与大多数商家宣传中的相反,kindle3对中文的支持并不是很好,虽然unicode编码的中文书能够正常阅读,但是文件名中的某些汉字会显示成“口口口”,据说文件名改成繁体后可以正常显示,没有实际测过;

暂时先写这么多,以后想到了再补充。

2011-01-16 update:

使用了一个多月了,补充一点感受吧:

1.昨天第二次充电,第一次充电到现在使用了近40天,每天阅读半小时,偶尔开下3G/WIFI上下网,中间几乎没关过机,刷系统重启过几次,不得不说kindle3是非常省电的;

2.屏幕太小,看扫描版的书几乎是自残行为,浏览网页也比较费劲,有钱的话还是上kindle dx吧:)

3.反应速度有点慢,尤其是开了网页在切换到其他程序时,不算屏幕刷新的时间,机器本身都要等个几秒钟的时间才能反应过来,这点让人很不爽。