2010年4月19日月曜日

未読・速読・超読?(2)方法案1/要約:我輩は猫である

(http://humanbeing-etcman.blogspot.com/2010/04/1.htmlの続き)
「行の内容ではなく、文字長の変化から、注目すべき文を抽出する」
ということから、

~~~
イメージして下さい...)
前後の文長と対象となる文長の量の割合を比較し、前後が中央値でバランスしているものが
変化点として捉える。
=>今回ここが、ゴールです。
~~~
言い換えると、
過去と未来の変化で、変化量が一致する部分が、平衡点で、そこからいずれかにバランスが
崩れてくる可能性があるのでは?...平衡点=変化点ではないのか?
~~~
予測アルゴリズム追究中での試行中の一部で、何か応用あるいは、有効なのかの判断も兼ねています。
=>疑似科学ッぽいですが、これで何がでるか?
~~~
作業中のExcelファイルは以下です。
http://spreadsheets.google.com/pub?key=tx3DPPSmMD5n5IHzZO7PPnA&output=html
=>Googleドキュメントにアップした段階で、式属性は全て外れてしまう。ちょっと困った!

各カラムの計算内容は、

A欄 Line No. 行番号
B欄 charNum 文字長
C欄 sumA (対象行の文字長)+(対象行の1つ先の行の文字長) ※前方文字量
D欄 sumB (対象行の文字長)+(対象行の1つ前の行の文字長) ※後方文字量
E欄 sumA% =sumA/charNum ※対象行に対する前方割合
F欄 sumB% =sumB/charNum ※対象行に対する後方割合
G欄 sumAbDiffval% =abs(sumA% - sumB%)/charNum ※前後の差を対象行の割合で表現。
H欄 diffB =abs(sumAbDiffval%の現在行と1つ前の差)
I欄 diffB/2 =diffB/2 ※半分
J欄 diffB/2_diffMedian =abs(diffB/2 - median(sumAbDiffval%)) ※中央値との差
K欄 bun 行番号に対応する本文

~~~
この先は、「diffB/2_diffMedian」をオートフィルターで抽出し、傾向をチェックする。
~~~
[1]フィルター条件:all

~~~
[2]フィルター条件:0.2 以上

~~~
[3]フィルター条件:0.15 以上 - 0.2 以下

~~~
[4]フィルター条件:0.04 以上 - 0.15 以下

~~~
[5]フィルター条件:0.04 以上

~~~
※これから何が見えるだろうか...

~~~
(続く...)
end

0 件のコメント: