2010年4月22日木曜日

未読・速読・超読?(3)1時間で読める!要約、我輩は猫である

SA図書館で貸し出し予約。2日で手元に。
本:1時間で読める ! 夏目漱石 要約 『吾輩は猫である』
http://www.amazon.co.jp/exec/obidos/ISBN/4062139243
~~~
目的)
未読・速読・超読?(2)で試行した結果と、この本の要約との差異を確認する。
http://humanbeing-etcman.blogspot.com/2010/04/2.html

---
処理している文書は全文ではなく、第1章?かと思ったが、第1回と判明。
:結果的に、対象文書範囲は一話完結であった。
===
p.16)抜粋
『猫』は当初は1回読み切りの短編のつもりで「ホトトギス」に掲載されたが、
好評のため結局連載10回の長編小説になった。
===
~~~
方法)
p.8-p.17の要約で、大見出しで区切られているブロック毎に、
大見出し又は、先頭行、最終行に関して、行番号を割り出し、先に処理したものと比較する。
~~~
[1]ブロック、行番号の割り出し

※行番号開始-終了,箇所,要約文(一部)

[ブロック:1]p.8-p.9
001-002,見出,我輩は猫である...
003-003,先頭,我輩がどこで生まれたかは...
046-047,最終,腹は減る、寒い...暖かそうな方へ方へと歩いていった。

[ブロック:2]p.9-p.10
049-049,見出,そこで我輩は、書生以外の...
050-050,先頭,第一に遭ったのが...
064-064,最終,...この家を自分の住家と...

[ブロック:3]p.10-p.11
066-066,見出,主人の職業は...
065-065,先頭,我輩の主人はめったに...
089-090,最終,...膝の上に乗る。昼寝をするときには...

[ブロック:4]p.11-p.12
099-099,見出,我輩は人間と同居して、彼らを観察...
101-101,先頭,自分の勝手なときは...頭へ袋をかぶせたり...
115-115,最終,我輩は教師の家に居るため、どちらかといえば...

[ブロック:5]p.12-p.14
117-118,見出,いくら人間だって、そういつまでも...
120-120,先頭,我輩の主人は取り立てて優れた...
156-160,最終,...さっきから小便を催して、もはや一分も猶予...のそのそ這い出した。

[ブロック:6]p.14-p.15
161-161,見出,主人は「この馬鹿...
164-164,先頭,こっちの便利になることは何一つ...
247-247,最終,...自分もひとかどの水彩画家...

[ブロック:7]p.15-p.17
248-248,見出,こんな愚昧な通人...
250-250,先頭,論理が通っていない気も...
298-298,最終,...生涯、この教師の家で無名の猫で...

~~~
[2]前回の処理で、「[5]フィルター条件:0.04 以上、wagahaiwa_nekodearu-af0.04over」と比較。
ブロックに分ける。
:結構、早朝なので、思考が詰まりかけてきた...前日の24H勤務で寝不足か...
:作業方針)行番号の差から、要約と同じ7ブロックにする。幅の大きい順に足切する。
http://spreadsheets.google.com/pub?key=t4byJN2jXiDvD4WZvpcLl-g&single=true&gid=0&output=html

:lineDiffをグラフ化すると、


:この場合、オートフィルターで、17以上とすると、

:lineDiffをグラフ化すると、



=>Line No.=109で、lineDiff=71が目立つ。均等化したいが、このまま続行。

~~~
処理したブロックは以下。

※行番号開始-終了

[処理、ブロック:1] 001-038
[処理、ブロック:2] 039-109
[処理、ブロック:3] 110-131
[処理、ブロック:4] 132-176
[処理、ブロック:5] 177-217
[処理、ブロック:6] 218-255
[処理、ブロック:7] 256-298

~~~
要約本と比較。

[要約、ブロック:1] 001-047
[要約、ブロック:2] 049-064
[要約、ブロック:3] 066-090
[要約、ブロック:4] 099-115
[要約、ブロック:5] 117-160
[要約、ブロック:6] 161-247
[要約、ブロック:7] 248-298


~~~
(続く...maybe)

end

2010年4月19日月曜日

未読・速読・超読?(2)方法案1/要約:我輩は猫である

(http://humanbeing-etcman.blogspot.com/2010/04/1.htmlの続き)
「行の内容ではなく、文字長の変化から、注目すべき文を抽出する」
ということから、

~~~
イメージして下さい...)
前後の文長と対象となる文長の量の割合を比較し、前後が中央値でバランスしているものが
変化点として捉える。
=>今回ここが、ゴールです。
~~~
言い換えると、
過去と未来の変化で、変化量が一致する部分が、平衡点で、そこからいずれかにバランスが
崩れてくる可能性があるのでは?...平衡点=変化点ではないのか?
~~~
予測アルゴリズム追究中での試行中の一部で、何か応用あるいは、有効なのかの判断も兼ねています。
=>疑似科学ッぽいですが、これで何がでるか?
~~~
作業中のExcelファイルは以下です。
http://spreadsheets.google.com/pub?key=tx3DPPSmMD5n5IHzZO7PPnA&output=html
=>Googleドキュメントにアップした段階で、式属性は全て外れてしまう。ちょっと困った!

各カラムの計算内容は、

A欄 Line No. 行番号
B欄 charNum 文字長
C欄 sumA (対象行の文字長)+(対象行の1つ先の行の文字長) ※前方文字量
D欄 sumB (対象行の文字長)+(対象行の1つ前の行の文字長) ※後方文字量
E欄 sumA% =sumA/charNum ※対象行に対する前方割合
F欄 sumB% =sumB/charNum ※対象行に対する後方割合
G欄 sumAbDiffval% =abs(sumA% - sumB%)/charNum ※前後の差を対象行の割合で表現。
H欄 diffB =abs(sumAbDiffval%の現在行と1つ前の差)
I欄 diffB/2 =diffB/2 ※半分
J欄 diffB/2_diffMedian =abs(diffB/2 - median(sumAbDiffval%)) ※中央値との差
K欄 bun 行番号に対応する本文

~~~
この先は、「diffB/2_diffMedian」をオートフィルターで抽出し、傾向をチェックする。
~~~
[1]フィルター条件:all

~~~
[2]フィルター条件:0.2 以上

~~~
[3]フィルター条件:0.15 以上 - 0.2 以下

~~~
[4]フィルター条件:0.04 以上 - 0.15 以下

~~~
[5]フィルター条件:0.04 以上

~~~
※これから何が見えるだろうか...

~~~
(続く...)
end

2010年4月16日金曜日

未読・速読・超読?(1)準備編

目的)
要約ではなく、読むべき箇所を抽出する。試みです。
:どこを読むべきか?

対象文書)
人気ブログでもいいが、ここは小説で試行。

青空文庫で物色。
夏目漱石、「我輩は猫である」の第1章?
http://www.aozora.gr.jp/cards/000148/card789.html
~~~
方法案1)
行の内容ではなく、文字長の変化から、注目すべき文を抽出する。
~~~
準備)
[1]テキストファイル(ルビあり)をダウンロード。
[2]ルビを削除。
[3]1行ごとに改行。
[4]先頭に、1行の文字数(半角ベースでカウント)。
=>加工したファイルは、以下です。
http://spreadsheets.google.com/pub?key=tK2Lt1PJAWN3Q6i1PKnLGQA&output=html
ファイル公開方法はいろいろありますが、Googleドキュメントを使用。ベンダロックイン状態です。
~~~
番外)
文字長をグラフ化すると以下のようになります。

(続く...)
end