2016年 11月 の投稿一覧

【プログラミング】Pythonスクレイピング(Beautiful Soup)+XPathでテキスト文指定でリンク先URLを取得

久しぶりのブログ更新となってしまいました。

ぼちぼちやってきます。

さて、今日はプログラミングの記事です。

 

先日来から勉強中のスクレイピングですが、

XPathとBeautiful Soupを併用してスクレイピングをしてみたので本日の記事に。

 

・テーブル構造でテキストとリンク先URLのセットでスクレイピングしたい(pandasのDataFrameを利用)

・同じテーブル内で複数のa hrefがあり、かつ名前が付与されておらずタグのみで正規表現でもとりにくく、識別しにくい、けど取得したいリンク先URLがだった
→テキスト文章を指定してそのリンク先という指定でとってきたら良さそうだったのでXPathを使うことに
(DataFrameは行数が揃わないとエラーが返ってくるので不要なデータを省いて確実にとりたい)

・Beautiful SoupはXPath使えないけど、lxmlを使えば出来た

続きを読む

【プログラミング】Pythonで色々 スクレイピング(Beautiful Soup+Selenium+PhantomJS)とか形態素解析

かれこれ、平日夜と週末とでPythonプログラミング歴3ヶ月くらいになってきたわけですが、

楽しく引き続きやっています。

 

最近やったことは、

1,形態素解析

・データをMecabに放り込んで、名詞のみで絞り込んで頻度算出、その後ユーザー辞書追加して再度やってみるという流れを掴んでおきたかったのでちょっとやってみた

・すぐに出来たので特に内容は記載しません。。。

 

2,スクレイピング

・テキストや画像など、本当にスクレイピングは関係することが多いので、ある程度勉強したいなと思い書籍から入ってみた

https://www.amazon.co.jp/dp/4873117615

・まずはPython+Beautiful Soupで単ページで構造が分かりやすいものはさくっととれるということがよく分かった

・次いで、JSで出来た生成されてるサイトは上記組み合わせでは難しく、PhantomJS、CasperJSってのがあってJSで書いてスクレイピングすることで、これまたさくっととれるということが分かった

・最後、それら組み合わせ+SeleniumでPythonでもJSのwebサイトからスクレイピングできることが分かった

・とりあえず最後PandasのDataframeでcsv化しようとした時に、UnicodeEncodeErrorが出続けてどうしようかはまりまくったけど、Dataframeでcsv化するところにencodeの指定を入れて解決というなんだかなという結末で、とりあえずやりたいことが実現出来た

続きを読む

【考え方】経営理念/哲学の情報発信について

今日は事業アイデアではなく、最近すごーく感じることを記事にしてみたい。

 

最近感じること

一時の勢いと比べて陰りが見え始めているものの、

上場、資金調達、Exit等の話題でスタートアップ界隈は変わらず賑わっている。

それそのものはもちろん素晴らしいことだろうけれど、

でも最近思うことは、『最終何を実現したいの?何のための会社だっけ?』

みたいな経営理念の部分において、

具体的ではなく、抽象度高く、『自分たちはこういうことのために存在するのだ』、

ということを社会へ発信しているスタートアップってどれだけあるんだろうということ。

 

※理念の具体度、抽象度の話は、以下の話がまあよく聞く話かなと思うので参考に貼り付け。

1番目のレンガ職人:「レンガ積みに決まっているだろ」→特に目的なし
2番目のレンガ職人:「この仕事のおかげで俺は家族を養っていける」→生活費を稼ぐのが目的
3番目のレンガ職人:「歴史に残る偉大な大聖堂を造っている」→後世に残る事業に加わり、世の中に貢献することが目的

出所:http://www.engagement-forum.com/im-building-a-cathedral-the-role-of-purpose-in-motivation

続きを読む