aridmoors: (Default)
[personal profile] aridmoors
Во.
Работаю в google sheets. И дождалась этого момента. "Выбранное действие создаст количество рабочих ячеек, превышающее лимит в 200000".

Куда-то надо пересаживаться, да, с такими объемами данных.

Date: 2018-05-23 04:31 am (UTC)
From: [identity profile] aosypov.livejournal.com
В СУБД, вестимо. Даже странно, что до сих пор - не.

Date: 2018-05-23 05:44 am (UTC)
From: [identity profile] vlkamov.livejournal.com
Кстати да.
Таблицы - вредное явление для серьезной обработки данных. Сначала кажется что удобно.
Потом объемы растут, сложность расчетов растет, а сами вычисления скрыты.
Причем во всех таблицах и базах данных неизбежно появляются свои языки программирования.
Лучше уж сразу писать нормальный код, хотя в начале это кажется сложнее таблиц.
R ?

Date: 2018-05-23 06:04 am (UTC)
From: [identity profile] aridmoors.livejournal.com
В аре я уже потихоньку сижу. Но я привыкла снимать данные с машины в экселе (она прям по дефолту только в экселе сохраняет), и потом эти данные надо грузить в ар, и там их причесывать. И я очень плохо умею причесывать. Вот где-то там было написано, что 80% всего анализа всегда уходит на причесывание данных (tidying) - ну вот я в последнее время прониклась, это в самом деле так.

У нас тут все на питоне пытаются. А мне так прям ар нравится. Не хочу никаких питонов.

Date: 2018-05-23 06:12 am (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
http://r4ds.had.co.nz/

R for Data Science, Hadley Wickham, Garrett Grolemund

Супер-пупер руководство, подозреваю, что уже встречавшееся.
Data Science вообще не моя область, но ко мне на работе эксельщики приходят со своими длинными файлами, с csv правда :)

Date: 2018-05-23 06:27 am (UTC)
From: [identity profile] aridmoors.livejournal.com
О, спасибо за ссылку.

Я давнео уже хочу сесть и как следует что-нибудь прочитать, но у меня каждый раз такая дилемма - или садиться что-то делать по книге (или курсу), или делать по своим данным, начинаю по своим - там конкретные задачи, мало относящие к курсу, но кончается все тем, что курс заброшен, а я сижу и делаю свое.

Я кстати так подозреваю, что курсы все равно не покроют все темы на должную глубину. Вот с теми же гистограммами, я сейчас пытаюсь делать много всяких разных в одном рисунке, так везде туториалы про самое простое только, ну там 2, ну максимум 3 сета данных, но не 14. А для моего решения самой надо че-то придумывать. И я так подозреваю, у всех так, конкретные задачи углубляются в дебри.

Date: 2018-05-23 06:40 am (UTC)
From: [identity profile] ultraohr.livejournal.com
Если можно, приведите, пожалуйста, описание вашей типовой задачи. Начиная от загрузки данных. Может и подскажу, чего почитать. С R работаю каждый день.

Date: 2018-05-23 06:47 am (UTC)
From: [identity profile] aridmoors.livejournal.com
У меня нету типовой задачи, я сейчас пытаюсь нарисовать рисунки к статье про применение нового математического подхода к анализу данных ПЦР. Там все рисунки разные.

Подскажите лучше, как сделать такой график, который комбинировал бы в себе, с одной стороны, построение экспоненциальных функций по нескольким вектроам (которые отображены как колонки данных в Р), а потом чтобы нарисовать связи между только определенными точками на этих функциях так, как рисуется в нетворках
типа вот так
https://www.google.co.jp/search?q=rstudio+networks&source=lnms&tbm=isch&sa=X&ved=0ahUKEwixrOeDnpvbAhVIgLwKHZxwBV4Q_AUICigB&biw=1861&bih=965#imgrc=lMHTPZaYm-1LiM:


Но фишка в том, чтобы основной рисунка были именно эти функции. То есть у нас есть скажем 3 колонки, в каждой из них есть данные всё возрастающей флуоресценции. По этим данным строим кривые. Это просто. Но потом те точки, по которым строились кривые, надо связать отношениями и их показать линиями. Вот как это сделать в одном рисунке?

Date: 2018-05-23 07:01 am (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
много гистограмм в одном рисунке:
http://www.sharpsightlabs.com/blog/master-small-multiple/

графы
https://www.data-imaginist.com/2017/ggraph-introduction-layouts/

Date: 2018-05-23 07:27 am (UTC)
From: [identity profile] kuigoroj.livejournal.com
"она прям по дефолту только в экселе сохраняет"

Если она сохраняет в csv, то это для чего угодно.

Date: 2018-05-23 07:32 am (UTC)
From: [identity profile] aridmoors.livejournal.com
Ну в смысле она сохраняет данные так, как разработчитки софта магины видели надо сохранять данные. То есть very messy.

Date: 2018-05-23 07:35 am (UTC)
From: [identity profile] aridmoors.livejournal.com
Спасибо. До small multiples я уже добралась и пока что раздумываю, объединять ли данные в один рисунок или использовать small multiples. Пока не знаю. Вот как вам кажется?
Так?
Image (https://postimages.org/)

Или так?
Image (https://postimages.org/)
image hosting websites (https://postimages.org/)


Они не сильно отличаются, это проблема, да.

Или может быть подскажете, как передвигать местами отдельные графики внутри small multiple? Я хочу передвинуть верхний вниз, под остальные два.

Date: 2018-05-23 07:43 am (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
как передвигать - здесь
http://ggplot2.tidyverse.org/reference/facet_wrap.html

# To change the order in which the panels appear, change the levels
# of the underlying factor.

Date: 2018-05-23 07:45 am (UTC)
From: [identity profile] aosypov.livejournal.com
а есть описание формата или хотя бы пример файла или хотя бы название софтины?

Потому что да, Ексель - зло. Не столько даже потому, что ограничений куча, сколько потому, что это - автоматический портильщик данных. И пока случайно не увидишь, что на пятисотом экране он тебе в одной клетке уровень экспрессии заменил на дату в формате дд-месяц-гг, так и будешь работать с "данными". Причем с уровнем экспрессии на тысячу экранов это еще не так фатально, а вот если какой идентификатор так заменит - можно крупно вляпаться.
Я своих аспирантов, студентов, сотрудников и просто коллег всегда старался от Экселя отвадить или, накрайняк, пердупердить о. Потому как проблема когда-то была мало известна и тихо попортила кучу всего, а теперь уже у биоинформатиков официально признана, хотя и не везде форсится.
Edited Date: 2018-05-23 07:54 am (UTC)

Date: 2018-05-23 07:46 am (UTC)
From: [identity profile] oleg berezin (from livejournal.com)
И еще замечание непрофессионала-любителя, Hadley Wickham с его пакетами крут и пользоваться ими очень удобно, но data.table на больших таблицах все же шустрее. Это так, на всякий случай.

Date: 2018-05-23 07:58 am (UTC)
From: [identity profile] aosypov.livejournal.com
Мне кажется, что классическая гистограмма на 14 датасетов - не самый подходящий инструмент визуализации...

Date: 2018-05-23 08:03 am (UTC)
From: [identity profile] aridmoors.livejournal.com
А чем предлагаете заменять?

Я думаю только в плане скомпоновать их в группы по 3-4... пока больше нисего не придумала. Цель картинки, как и любой гистограммы вообще - показать характер распределения. У меня получается что распределение везде нормальное и сдвинутое вправо, не отличающееся друг от друга. Если я его накладываю друг на друга, оно почти не видно, а если разношу по разным рисункам, то на глаз отличий становится вообще не понять. Вот сижу и думаю, что делать.

Хотя пофиг наверно, эта все равно скорее всего в саплементари пойдет.

Date: 2018-05-23 10:02 am (UTC)
From: [identity profile] snake-d-ha.livejournal.com

Я за PowerBI!

From: [identity profile] scholarpunk.livejournal.com
А еще чего-то страдает, депрессует еще, А!... Да пора уже с такой совокупностью ачивок индивидуальные храмы открывать, штоб народ втуда Вам поклоняццо ходил!.. Тем более Япония, синтоизм вот это всё - оно тому способствует.

Узнавайте давайте, куда заявку подавать! Это ш Япония, там наверняка в каком-нибудь департаменте что-то подобное предусмотрено. С древнего китаю исчо повелось - там с духами и всякими богами деловую переписку ведут - даже взыскания, порою, накладывают. Ежели там неурожай - могут и головы с идолов временно посбивать, и на другие чужие позаменять...

*/ Ушолъ скорбеть о собственной тупасци /*

Date: 2018-05-23 07:08 pm (UTC)
From: [identity profile] Алексей Орлов (from livejournal.com)
>> Не хочу никаких питонов.

У Питона дыхание может оказаться длиннее. И то, что "рядом все пытаются", имеет значение. Jupyter Notebook, ipython, scipy, numpy, matplotlib - это профессиональные инструменты, ради которых не требуется становиться профессиональным программистом. Такой расклад нечасто встретишь.

Date: 2018-05-23 09:53 pm (UTC)
From: [identity profile] ultraohr.livejournal.com
Извините за задержку с ответом. ЖЖ читаю только утром и/или вечером. Написал в личные сообщения.

Date: 2018-05-23 10:10 pm (UTC)
From: [identity profile] ultraohr.livejournal.com
> распределение везде нормальное
Очень сильное утверждение. Гипотезу нормальности нужно проверять для каждого из наборов. На приведённых ниже графиках распределения имеют колоколообразную форму, но вот на счёт нормальности я не уверен. Как минимум, распределения ограничены (т.е. величина не может быть больше (меньше) некоторого порога), что ведёт к смещению оценок их параметров.
Для сравнения всех трёх между собой вам не нужно знать закон распределения. Можно воспользоваться критерием Колмогорова-Смирнова (ks.test в R, данных у вас вроде достаточно) или какой-нть из ранговых методов (но придётся почитать про мощность и устойчивость в зависимости от числа точек).
Опять же, графически более наглядно будет представить эти распределения в виде коробчатых диаграмм (boxplot), что в паре с результатами тестов вполне исчерпывающе описывает их.
Однако, если очень нужна форма распределений, то лучше смотреть в сторону семейства кривых распределений Пирсона.

Date: 2018-05-23 11:42 pm (UTC)
From: [identity profile] diakin.livejournal.com
Там можно еще лист создать. Или уже все? )

Date: 2018-05-24 06:10 pm (UTC)
From: [identity profile] ultraohr.livejournal.com
Это ж я совсем забыл. Есть такой тип крафиков: violinplot. Практически гибрид коробчатой диаграммы и кривой распределения. По-моему, это - самый лучший вариант.
From: [identity profile] rbs-vader.livejournal.com
Ну вот я уже читаю и тихонько восхищаюсь.

Profile

aridmoors: (Default)
aridmoors

January 2026

S M T W T F S
    123
45678910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 20th, 2026 01:32 pm
Powered by Dreamwidth Studios