[Dự án] Hoàn thiện dữ liệu Sở Hữu Cách

Decepticon

Phàm Nhân
Ngọc
4,46
Tu vi
0,00
Hiện do dữ liệu quá nhiều, nếu ghép hết cả lại thì rất nặng và bất hợp lí nên ta đang cần tách nhỏ ra nhưng chưa biết phân loại như thế nào, prồ nào vô giúp ta đươc không?

Thư mục chính: https://drive.google.com/folderview?id=0B3fifHlUXtlgY3U5bWxUTkRpOHM&usp=sharing

Update 20/01/2015:
Stop và sài script cho mục đích khác. Ai muốn sài thì phải cài Python 3 vô máy tính

Ví dụ ta có 2 file:
X.txt
Code:
七=thất
三=tam
九=cửu
二=nhị
五=ngũ
八=bát
六=lục
四=tứ
大=đại
小=tiểu

Y.txt
Code:
{0}伯={1} bá
{0}叔={1} thúc
{0}妹={1} muội
{0}姐={1} tỷ
{0}公主={1} công chúa
{0}公子={1} công tử
{0}少主={1} thiếu chủ
{0}少爷={1} thiếu gia
{0}少爺={1} thiếu gia
{0}师伯={1} sư bá
{0}师兄={1} sư huynh
{0}师叔={1} sư thúc
{0}师哥={1} sư ca
{0}师妹={1} sư muội
{0}师姐={1} sư tỷ
{0}师弟={1} sư đệ
{0}師伯={1} sư bá
{0}師兄={1} sư huynh
{0}師叔={1} sư thúc
{0}師哥={1} sư ca
{0}師妹={1} sư muội
{0}師姐={1} sư tỷ
{0}師弟={1} sư đệ
{0}王爷={1} vương gia
{0}王爺={1} vương gia
{0}皇子={1} hoàng tử

Sau khi chạy Script thì sẽ ra file kết quả
result.txt
Code:
七伯=thất bá
三伯=tam bá
九伯=cửu bá
二伯=nhị bá
五伯=ngũ bá
八伯=bát bá
六伯=lục bá
四伯=tứ bá
大伯=đại bá
小伯=tiểu bá
七叔=thất thúc
三叔=tam thúc
九叔=cửu thúc
二叔=nhị thúc
五叔=ngũ thúc
八叔=bát thúc
六叔=lục thúc
四叔=tứ thúc
大叔=đại thúc
小叔=tiểu thúc
七妹=thất muội
三妹=tam muội
九妹=cửu muội
二妹=nhị muội
五妹=ngũ muội
八妹=bát muội
六妹=lục muội
四妹=tứ muội
大妹=đại muội
小妹=tiểu muội
七姐=thất tỷ
三姐=tam tỷ
九姐=cửu tỷ
二姐=nhị tỷ
五姐=ngũ tỷ
八姐=bát tỷ
六姐=lục tỷ
四姐=tứ tỷ
大姐=đại tỷ
小姐=tiểu tỷ
七公主=thất công chúa
三公主=tam công chúa
九公主=cửu công chúa
二公主=nhị công chúa
五公主=ngũ công chúa
八公主=bát công chúa
六公主=lục công chúa
四公主=tứ công chúa
大公主=đại công chúa
小公主=tiểu công chúa
七公子=thất công tử
三公子=tam công tử
九公子=cửu công tử
二公子=nhị công tử
五公子=ngũ công tử
八公子=bát công tử
六公子=lục công tử
四公子=tứ công tử
大公子=đại công tử
小公子=tiểu công tử
七少主=thất thiếu chủ
三少主=tam thiếu chủ
九少主=cửu thiếu chủ
二少主=nhị thiếu chủ
五少主=ngũ thiếu chủ
八少主=bát thiếu chủ
六少主=lục thiếu chủ
四少主=tứ thiếu chủ
大少主=đại thiếu chủ
小少主=tiểu thiếu chủ
七少爷=thất thiếu gia
三少爷=tam thiếu gia
九少爷=cửu thiếu gia
二少爷=nhị thiếu gia
五少爷=ngũ thiếu gia
八少爷=bát thiếu gia
六少爷=lục thiếu gia
四少爷=tứ thiếu gia
大少爷=đại thiếu gia
小少爷=tiểu thiếu gia
七少爺=thất thiếu gia
三少爺=tam thiếu gia
九少爺=cửu thiếu gia
二少爺=nhị thiếu gia
五少爺=ngũ thiếu gia
八少爺=bát thiếu gia
六少爺=lục thiếu gia
四少爺=tứ thiếu gia
大少爺=đại thiếu gia
小少爺=tiểu thiếu gia
七师伯=thất sư bá
三师伯=tam sư bá
九师伯=cửu sư bá
二师伯=nhị sư bá
五师伯=ngũ sư bá
八师伯=bát sư bá
六师伯=lục sư bá
四师伯=tứ sư bá
大师伯=đại sư bá
小师伯=tiểu sư bá
七师兄=thất sư huynh
三师兄=tam sư huynh
九师兄=cửu sư huynh
二师兄=nhị sư huynh
五师兄=ngũ sư huynh
八师兄=bát sư huynh
六师兄=lục sư huynh
四师兄=tứ sư huynh
大师兄=đại sư huynh
小师兄=tiểu sư huynh
七师叔=thất sư thúc
三师叔=tam sư thúc
九师叔=cửu sư thúc
二师叔=nhị sư thúc
五师叔=ngũ sư thúc
八师叔=bát sư thúc
六师叔=lục sư thúc
四师叔=tứ sư thúc
大师叔=đại sư thúc
小师叔=tiểu sư thúc
七师哥=thất sư ca
三师哥=tam sư ca
九师哥=cửu sư ca
二师哥=nhị sư ca
五师哥=ngũ sư ca
八师哥=bát sư ca
六师哥=lục sư ca
四师哥=tứ sư ca
大师哥=đại sư ca
小师哥=tiểu sư ca
七师妹=thất sư muội
三师妹=tam sư muội
九师妹=cửu sư muội
二师妹=nhị sư muội
五师妹=ngũ sư muội
八师妹=bát sư muội
六师妹=lục sư muội
四师妹=tứ sư muội
大师妹=đại sư muội
小师妹=tiểu sư muội
七师姐=thất sư tỷ
三师姐=tam sư tỷ
九师姐=cửu sư tỷ
二师姐=nhị sư tỷ
五师姐=ngũ sư tỷ
八师姐=bát sư tỷ
六师姐=lục sư tỷ
四师姐=tứ sư tỷ
大师姐=đại sư tỷ
小师姐=tiểu sư tỷ
七师弟=thất sư đệ
三师弟=tam sư đệ
九师弟=cửu sư đệ
二师弟=nhị sư đệ
五师弟=ngũ sư đệ
八师弟=bát sư đệ
六师弟=lục sư đệ
四师弟=tứ sư đệ
大师弟=đại sư đệ
小师弟=tiểu sư đệ
七師伯=thất sư bá
三師伯=tam sư bá
九師伯=cửu sư bá
二師伯=nhị sư bá
五師伯=ngũ sư bá
八師伯=bát sư bá
六師伯=lục sư bá
四師伯=tứ sư bá
大師伯=đại sư bá
小師伯=tiểu sư bá
七師兄=thất sư huynh
三師兄=tam sư huynh
九師兄=cửu sư huynh
二師兄=nhị sư huynh
五師兄=ngũ sư huynh
八師兄=bát sư huynh
六師兄=lục sư huynh
四師兄=tứ sư huynh
大師兄=đại sư huynh
小師兄=tiểu sư huynh
七師叔=thất sư thúc
三師叔=tam sư thúc
九師叔=cửu sư thúc
二師叔=nhị sư thúc
五師叔=ngũ sư thúc
八師叔=bát sư thúc
六師叔=lục sư thúc
四師叔=tứ sư thúc
大師叔=đại sư thúc
小師叔=tiểu sư thúc
七師哥=thất sư ca
三師哥=tam sư ca
九師哥=cửu sư ca
二師哥=nhị sư ca
五師哥=ngũ sư ca
八師哥=bát sư ca
六師哥=lục sư ca
四師哥=tứ sư ca
大師哥=đại sư ca
小師哥=tiểu sư ca
七師妹=thất sư muội
三師妹=tam sư muội
九師妹=cửu sư muội
二師妹=nhị sư muội
五師妹=ngũ sư muội
八師妹=bát sư muội
六師妹=lục sư muội
四師妹=tứ sư muội
大師妹=đại sư muội
小師妹=tiểu sư muội
七師姐=thất sư tỷ
三師姐=tam sư tỷ
九師姐=cửu sư tỷ
二師姐=nhị sư tỷ
五師姐=ngũ sư tỷ
八師姐=bát sư tỷ
六師姐=lục sư tỷ
四師姐=tứ sư tỷ
大師姐=đại sư tỷ
小師姐=tiểu sư tỷ
七師弟=thất sư đệ
三師弟=tam sư đệ
九師弟=cửu sư đệ
二師弟=nhị sư đệ
五師弟=ngũ sư đệ
八師弟=bát sư đệ
六師弟=lục sư đệ
四師弟=tứ sư đệ
大師弟=đại sư đệ
小師弟=tiểu sư đệ
七王爷=thất vương gia
三王爷=tam vương gia
九王爷=cửu vương gia
二王爷=nhị vương gia
五王爷=ngũ vương gia
八王爷=bát vương gia
六王爷=lục vương gia
四王爷=tứ vương gia
大王爷=đại vương gia
小王爷=tiểu vương gia
七王爺=thất vương gia
三王爺=tam vương gia
九王爺=cửu vương gia
二王爺=nhị vương gia
五王爺=ngũ vương gia
八王爺=bát vương gia
六王爺=lục vương gia
四王爺=tứ vương gia
大王爺=đại vương gia
小王爺=tiểu vương gia
七皇子=thất hoàng tử
三皇子=tam hoàng tử
九皇子=cửu hoàng tử
二皇子=nhị hoàng tử
五皇子=ngũ hoàng tử
八皇子=bát hoàng tử
六皇子=lục hoàng tử
四皇子=tứ hoàng tử
大皇子=đại hoàng tử
小皇子=tiểu hoàng tử
七王子=thất vương tử
三王子=tam vương tử
九王子=cửu vương tử
二王子=nhị vương tử
五王子=ngũ vương tử
八王子=bát vương tử
六王子=lục vương tử
四王子=tứ vương tử
大王子=đại vương tử
小王子=tiểu vương tử
 
Last edited:

Clarkdale

Phàm Nhân
Ngọc
487,85
Tu vi
0,00
Hiện do dữ liệu quá nhiều, nếu ghép hết cả lại thì rất nặng và bất hợp lí nên ta đang cần tách nhỏ ra nhưng chưa biết phân loại như thế nào, prồ nào vô giúp ta đươc không?

Pronouns.txt https://drive.google.com/file/d/0B3fifHlUXtlgNHd5NFpzSGlDVEU/view?usp=sharing
Sở Hữu Cách.txt: https://drive.google.com/file/d/0B3fifHlUXtlgY1k2ZE9GeTg1YkU/view?usp=sharing
Ta chưa hiểu ý của lão phân loại như thế nào cả, ta nghĩ trong bản của lão có 2 phần nên tách ra. Thể loại Tiên Huyễn và Hiện đại. Vậy thì sẽ chia nhỏ bớt ra. Ví dụ như: đạo trưởng ko thể xài ô tô tàu ngầm ấy mà.
 
Last edited:

Decepticon

Phàm Nhân
Ngọc
4,46
Tu vi
0,00
nói thì đơn giản nhưng làm mới khó, tách riêng Hiện đại (điện thoại của {0}, ô tô của {0}, bí thư, giám đốc...) là chắc chắn nhưng phải tách nhỏ nữa, nhỏ nữa... cho đến khi hợp lý mới thôi nếu ko kết quả sẽ lớn đến khủng khiếp

Nói chung ta cần người chia nhỏ giúp ta, chia cho 2 file pronoun.txt và sohuucach.txt thành các file càng nhỏ, càng hợp lý thì càng tốt.

Ví dụ ta chia thế này
* Pronouns.txt chia thành:
- Số ít + cổ đại + nữ (sư muội, tiểu sư muội...)
- Số ít + cổ đại + nam (sư đệ, tiểu sư đệ...)
- Số ít + hiện đại + nữ (???)
- Số ít + hiện đại + nam (trưởng phòng, giám đốc...)
- Số ít + all + nữ (nàng, muội, tỷ, mẹ, di, nương, tẩu)
- Số ít + all + nam (ta, ngươi, ngài, hắn, cha, nó)
- Số nhiều + cổ đại + nữ
- Số nhiều + cổ đại + nam
- Số nhiều + hiện đại + nữ
- Số nhiều + hiện đại + nam
- Số nhiều + all + nữ
- Số nhiều + all + nam

* Sở hữu cách.txt chia ??? sao cho phù hợp vớt pronouns


P/s: Đã nói là Dự Án thì phải nhiều người tham gia chứ một mình gánh không nổi
 
Last edited:

Decepticon

Phàm Nhân
Ngọc
4,46
Tu vi
0,00
@di: no, ghép lại bằng script sài thôi. file số dòng kết quả sẽ ra =số dòng pronoun*số dòng sohuucach

@LOLOTICA: cũng chả phức tạp lắm đâu, toàn copy-paste là chính. với lại sử dụng bookmark trong Notepad++ thì tốc độc phải tăng lên 1000 lần.

Ai muốn tham gia thì cho xin cái gmail để ta phân quyền chỉnh sửa thư mục google drive và hướng dẫn cụ thể. Cơ mà trước mắt cần mọi người cho ý kiến về việc tách nhỏ sohuucach.txt ntn cho nó hợp lý cái đã
 

Clarkdale

Phàm Nhân
Ngọc
487,85
Tu vi
0,00
@di: no, ghép lại bằng script sài thôi. file số dòng kết quả sẽ ra =số dòng pronoun*số dòng sohuucach

@LOLOTICA: cũng chả phức tạp lắm đâu, toàn copy-paste là chính. với lại sử dụng bookmark trong Notepad++ thì tốc độc phải tăng lên 1000 lần.

Ai muốn tham gia thì cho xin cái gmail để ta phân quyền chỉnh sửa thư mục google drive và hướng dẫn cụ thể. Cơ mà trước mắt cần mọi người cho ý kiến về việc tách nhỏ sohuucach.txt ntn cho nó hợp lý cái đã

Về phần phân chia, ta thấy như là chia ở trên là ok rồi. Nếu được lão phân quyền cho ta đi: nglehoangvan@gmail.com
 

Lão Di

Phàm Nhân
Ngọc
50,00
Tu vi
0,00


Chi thứ

Phụ hệ
Nhất , gia đình xưng hô
Nhị , tổ phụ tổ mẫu tộc xưng hô
Tam , cha mẹ tộc xưng hô
Ngũ , dượng tộc xưng hô
Sáu , thê tộc xưng hô
Nông thôn xã giao xưng hô
:hayhay:

丈夫:结婚的女人对自己伴侣的称呼
  媳妇:结婚的男人对自己伴侣的称呼
  公公:丈夫的父亲,也直称爸爸
  婆婆:丈夫的母亲,也直称妈妈
  丈人、岳父:妻子的父亲,也直称爸爸
  丈母娘、岳母:妻子的母亲,也直称妈妈
  儿媳:对儿子的妻子的称呼
  女婿:对女儿的丈夫的称呼
  嫂子:对兄长妻子的称呼
  弟妹、弟媳:对弟弟妻子的称呼
  姐夫:对姐姐丈夫的称呼
  妹夫:对妹妹丈夫的称呼
  妯娌:兄弟的妻子间互相间的称呼或合称
  连襟:姐妹的丈夫间互相间的称呼或合称,也称襟兄弟
  大姑子:对丈夫的姐姐的称呼
  小姑子:对丈夫妹妹的称呼
  大舅子:对妻子哥哥的称呼
  小舅子:对妻子弟弟的称呼
http://www.mediafire.com/view/in0hr1osmelrcmu/Book1.xlsx


:31:
伯= bá
侄= điệt
儿= nhi
兄= huynh
卿= khanh
叔= thúc
哥= ca
妹= muội
姐= tỷ
姨= di
娘= nương
嫂= tẩu
家= gia
府= phủ
弟= đệ
某= mỗ
母= mẫu
氏= thị
爷= gia
王= vương
老= lão
舅= cữu
 

Decepticon

Phàm Nhân
Ngọc
4,46
Tu vi
0,00
đã phân quyền cho lão nhé. chỉnh sửa trực tiếp bằng Drive Notepad (tốt nhất copy về máy rồi paste lên cho nhanh)

sohuucach phân như pronoun thì ko hợp lý lắm thì phải :-?

Untitled.png
 

Những đạo hữu đang tham gia đàm luận

Top