形態素解析

【プログラミング】Pythonで色々 スクレイピング(Beautiful Soup+Selenium+PhantomJS)とか形態素解析

かれこれ、平日夜と週末とでPythonプログラミング歴3ヶ月くらいになってきたわけですが、

楽しく引き続きやっています。

 

最近やったことは、

1,形態素解析

・データをMecabに放り込んで、名詞のみで絞り込んで頻度算出、その後ユーザー辞書追加して再度やってみるという流れを掴んでおきたかったのでちょっとやってみた

・すぐに出来たので特に内容は記載しません。。。

 

2,スクレイピング

・テキストや画像など、本当にスクレイピングは関係することが多いので、ある程度勉強したいなと思い書籍から入ってみた

https://www.amazon.co.jp/dp/4873117615

・まずはPython+Beautiful Soupで単ページで構造が分かりやすいものはさくっととれるということがよく分かった

・次いで、JSで出来た生成されてるサイトは上記組み合わせでは難しく、PhantomJS、CasperJSってのがあってJSで書いてスクレイピングすることで、これまたさくっととれるということが分かった

・最後、それら組み合わせ+SeleniumでPythonでもJSのwebサイトからスクレイピングできることが分かった

・とりあえず最後PandasのDataframeでcsv化しようとした時に、UnicodeEncodeErrorが出続けてどうしようかはまりまくったけど、Dataframeでcsv化するところにencodeの指定を入れて解決というなんだかなという結末で、とりあえずやりたいことが実現出来た

続きを読む

【新規事業/取り組みアイデア】ふりかけ業界×人工知能(自然言語処理)

今日は、ふりかけ業界×人工知能(自然言語処理)です。

■なんで新規アイデア考えてるの?
新規アイデア作成のためのシートの公開もしています

新規アイデア作成シートとルール

では以下今日のアイデアです。

—————————————————–

【市場整理】

まずは市場整理から。以下のように食品産業新聞によると、推定で624億円市場となっていて、昨年より微増とのことである。

2015年のふりかけ市場は前年から金額ベースで微増となった。数量は横ばいも、価格改定や売価底上げにより金額ベースで前年を上回った。本紙推計による市場規模は小売ベース624億円、内ソフトタイプは63億円強を占めた。昨年は構成比の大きな直詰めドライが堅調に推移したことに加え、ソフトやチルドが伸長。対して混ぜ込みは、近年の鈍化傾向から抜け出せずにいる。

出所 :食品産業新聞(2016)「【夏季清酒特集】【ご飯周り特集】 (6/13)」

http://www.ssnp.co.jp/articles/show/1606130005782931

続きを読む