あってきましたよ。昨日だけど。
未来ある若者達とふれあい若さのエキスを吸収してまいりました。
なんでglucoseのバイナリはでっかいんですか?って聞かれたんだけど僕も知りたい。
STLを無節操に使ってるからだろうか。
">([^<]*)</"で切り出したテキストを全部UTF-8にするようにしたら、予想以上に上手くいったので採用する事にした。
現在Trackbackが返すXMLだけこの処理を適用している。
もうTrackbackの文字化け問題は僕が対処すべき話じゃない気がする。というかそういう事にしたい。
一番良いのはMTがXMLのCharsetを読むようになって、みんながそれを使う事だし。
XMLの要素毎に文字コード判定をしては? と久保君に言われたんだけど、それをやるとしたら、文字化けしている時点でXMLをパーズ出来ない可能性があるので、パーズ前にやる必要がある。
それってめんどくさくネ?
でもやってみようかなぁ ウーン ウーン
glucoseが文字化けするサイトを探して橋本大也氏のPassion for the Futureに行ったら、忘年会をするそうなので応募してみた。
http://bestof2003.100shiki.com/
デジハリというと駿台時代を思い出す。
その頃は「胡散臭い名前の専門学校だなぁ」と思っていた。
で、文字化けなんですが、自動判別コードをいれて、まぁ80%ぐらいの文字化けは直ったのではないでしょうか。
でも、
http://www.ringolab.com/mt-note/mt-tb.cgi/443?__mode=rss
http://www.ringolab.com/mt-note/mt-tb.cgi?__mode=view&entry_id=594
こんなのは無理です。
PyJUGの人に「ベータ版がとれるのはいつですか」と質問されて、びっくりした。そういえば何も考えていなかった。
永遠にベータ版なつもりもあったけど、そんなプログラマーの無責任な妄想は誰も許してくれないのかもしれない。
前述の短期目標が終わって、ショーストップなバグも無かったら1.0として公開しても良いと思う。
そのあとにやりたい事。
・P2Pゲートサーバの書き直し
ハングしてるのとりあえず止めないと。
・glucose本体の単機能化、それ以外のコンポーネントの外部化
glucose本体をRSSリポジトリ、P2P通信機能のみの構成にして、 ブラウザ、電光掲示板等のUI、推薦・フィルタリングエンジン等を外部化したい。
・履歴からのニュース推薦機能
いままで読んだニュースから傾向を判断してユーザーにニュースを推薦する機能が欲しい。
単純にナイーブベイズを使っただけで上手くいくのかとかも調査しないと。
特定のニュースだけしか読まないって人はまれで、殆どの人は網羅的にニュースを読む上で自分の興味のあるトピックは詳しく読むというスタイルなはずなので、そこらへんがどう影響するのか。
なんも影響しないのか。
最終的にはRSSを登録していかなくてもニュースマイニングが出来るようにしたい。