etcman: 未読・速読・超読？(2)方法案１／要約：我輩は猫である

(http://humanbeing-etcman.blogspot.com/2010/04/1.htmlの続き)
「行の内容ではなく、文字長の変化から、注目すべき文を抽出する」
ということから、

~~~
イメージして下さい...）
前後の文長と対象となる文長の量の割合を比較し、前後が中央値でバランスしているものが
変化点として捉える。
=>今回ここが、ゴールです。
~~~
言い換えると、
過去と未来の変化で、変化量が一致する部分が、平衡点で、そこからいずれかにバランスが
崩れてくる可能性があるのでは？...平衡点＝変化点ではないのか？
~~~
予測アルゴリズム追究中での試行中の一部で、何か応用あるいは、有効なのかの判断も兼ねています。
=>疑似科学ッぽいですが、これで何がでるか？
~~~
作業中のExcelファイルは以下です。
http://spreadsheets.google.com/pub?key=tx3DPPSmMD5n5IHzZO7PPnA&output=html
=>Googleドキュメントにアップした段階で、式属性は全て外れてしまう。ちょっと困った！

各カラムの計算内容は、

Ａ欄 Line No. 行番号
Ｂ欄 charNum 文字長
Ｃ欄 sumA (対象行の文字長)＋(対象行の１つ先の行の文字長) ※前方文字量
Ｄ欄 sumB (対象行の文字長)＋(対象行の１つ前の行の文字長) ※後方文字量
Ｅ欄 sumA% =sumA/charNum ※対象行に対する前方割合
Ｆ欄 sumB% =sumB/charNum ※対象行に対する後方割合
Ｇ欄 sumAbDiffval% =abs(sumA% - sumB%)/charNum ※前後の差を対象行の割合で表現。
Ｈ欄 diffB =abs(sumAbDiffval%の現在行と１つ前の差)
Ｉ欄 diffB/2 =diffB/2 ※半分
Ｊ欄 diffB/2_diffMedian =abs(diffB/2 - median(sumAbDiffval%)) ※中央値との差
Ｋ欄 bun 行番号に対応する本文

~~~
この先は、「diffB/2_diffMedian」をオートフィルターで抽出し、傾向をチェックする。
~~~
[1]フィルター条件：all

~~~
[2]フィルター条件：0.2 以上

~~~
[3]フィルター条件：0.15 以上 - 0.2 以下

~~~
[4]フィルター条件：0.04 以上 - 0.15 以下

~~~
[5]フィルター条件：0.04 以上

~~~
※これから何が見えるだろうか...

~~~
(続く...)
end

etcman

2010年4月19日月曜日

未読・速読・超読？(2)方法案１／要約：我輩は猫である

0 件のコメント:

ラベル

ブログアーカイブ

自己紹介